掌控搜索蜘蛛的利剑 —— Robots

mvods · 发表于 2012-10-9 18:51:33

robots是搜索引擎抓取网站内容时第一个浏览的文件，是网站管理员与搜索引擎约定的协议。

建立robots文件一方面是处于网络安全、隐私考虑，另一方面也是网站优化的需要。robots文件是一个普通的txt文档（robots.txt)。将其放置于网站根目录，以便搜索引擎蜘蛛来爬行的时候能够读取robots文件，需要注意robots文件名称必须小写。

一、robots文件书写规则

User-agent:定义搜索引擎

Disallow:指定禁止收录地址

Allow:指定可以收录的地址

二、常用搜索引擎蜘蛛

baiduspider 百度蜘蛛

googlebot    谷歌蜘蛛

slurp    雅虎蜘蛛

msnbot    msn蜘蛛

三、robots具体应用

User-agent:* *代表所有搜索引擎,*为通配符

Disallow:/seo/ 禁止收录seo目录及其子目录包含的所有文件

Disallow:/*?*    禁止收录网站所有动态页面

Disallow:/       禁止收录整个网站

Disallow:          网站开放收录，蜘蛛不受任何限制(与上一条的禁止网站收录很像，书写时要特别注意区别，避免网站不收录陷阱）

Disallow:/.gif$    禁止收录所有gif图片($是匹配网址结束字符）

Disallow:/ *.php    禁止抓取.php结尾的文件

Allow:/*.html       允许收录以.html结尾的文件

Allow:/*.asp$       允许收录所有以.asp结尾的文件

四、robots.txt文件实例分析

User-agent: * （允许所有搜索引擎收录）
Disallow:*/page/*（禁止收录根目录page子目录下的文件）
Disallow:/*?*  （禁止收录动态页面）
Disallow:/date/ （禁止收录date目录）
Sitemap:https://www.***.com/sitemap.xml（指明sitemap路径，方便蜘蛛抓取）
相信经过seo的讲解，你已经能够独立设置robots文件，如果不能确定自己写的是否正确，seo强烈建议在谷歌管理员工具中进行试验，通过后再上传或更改robots文件，避免不收录陷阱。

账号		自动登录	找回密码
密码			立即注册【分享大片】

[交流分享] 掌控搜索蜘蛛的利剑 —— Robots

卓越贡献勋章

VIP蓝光勋章

诚信会员勋章