BluRayCD Forum

 找回密码
 立即注册【分享大片】
查看: 472|回复: 0
收起左侧

[交流分享] 掌控搜索蜘蛛的利剑 —— Robots

[复制链接]

1万

主题

387

回帖

13万

积分

Post Share

金币
4312 枚
体力
32909 点

卓越贡献勋章VIP蓝光勋章诚信会员勋章

mvods 发表于 2012-10-9 18:51:33 | 显示全部楼层 |阅读模式
robots是搜索引擎抓取网站内容时第一个浏览的文件,是网站管理员与搜索引擎约定的协议。

建立robots文件一方面是处于网络安全、隐私考虑,另一方面也是网站优化的需要。robots文件是一个普通的txt文档(robots.txt)。将其放置于网站根目录,以便搜索引擎蜘蛛来爬行的时候能够读取robots文件,需要注意robots文件名称必须小写。

一、robots文件书写规则

User-agent:定义搜索引擎

Disallow:指定禁止收录地址

Allow:指定可以收录的地址

二、常用搜索引擎蜘蛛

baiduspider   百度蜘蛛

googlebot      谷歌蜘蛛

slurp       雅虎蜘蛛

msnbot     msn蜘蛛

三、robots具体应用

User-agent:*    *代表所有搜索引擎,*为通配符

Disallow:/seo/    禁止收录seo目录及其子目录包含的所有文件

Disallow:/*?*       禁止收录网站所有动态页面

Disallow:/          禁止收录整个网站

Disallow:             网站开放收录,蜘蛛不受任何限制(与上一条的禁止网站收录很像,书写时要特别注意区别,避免网站不收录陷阱)

Disallow:/.gif$      禁止收录所有gif图片($是匹配网址结束字符)

Disallow:/ *.php     禁止抓取.php结尾的文件

Allow:/*.html         允许收录以.html结尾的文件

Allow:/*.asp$         允许收录所有以.asp结尾的文件

四、robots.txt文件实例分析

User-agent: * (允许所有搜索引擎收录)
Disallow:*/page/*(禁止收录根目录page子目录下的文件)
Disallow:/*?*  (禁止收录动态页面)
Disallow:/date/ (禁止收录date目录)
Sitemap:https://www.***.com/sitemap.xml(指明sitemap路径,方便蜘蛛抓取)
相信经过seo的讲解,你已经能够独立设置robots文件,如果不能确定自己写的是否正确,seo强烈建议在谷歌管理员工具中进行试验,通过后再上传或更改robots文件,避免不收录陷阱。

本版积分规则

小黑屋|手机版|Archiver|4K蓝光论坛

GMT+8, 2024-5-6 23:09

Copyright © 2001-2021, Gadaddy Cloud.

快速回复 返回顶部 返回列表