- 积分
- 135404
- 经验
- 42757 点
- 热情
- 28739 点
- 魅力
- 11212 点
- 信誉
- 21733 度
- 金币
- 4849 枚
- 钻石
- 3796 颗
- 蓝光币
- 0 ¥
Post Share
- 金币
- 4849 枚
- 体力
- 33733 点
|
robots是搜索引擎抓取网站内容时第一个浏览的文件,是网站管理员与搜索引擎约定的协议。
建立robots文件一方面是处于网络安全、隐私考虑,另一方面也是网站优化的需要。robots文件是一个普通的txt文档(robots.txt)。将其放置于网站根目录,以便搜索引擎蜘蛛来爬行的时候能够读取robots文件,需要注意robots文件名称必须小写。
一、robots文件书写规则
User-agent:定义搜索引擎
Disallow:指定禁止收录地址
Allow:指定可以收录的地址
二、常用搜索引擎蜘蛛
baiduspider 百度蜘蛛
googlebot 谷歌蜘蛛
slurp 雅虎蜘蛛
msnbot msn蜘蛛
三、robots具体应用
User-agent:* *代表所有搜索引擎,*为通配符
Disallow:/seo/ 禁止收录seo目录及其子目录包含的所有文件
Disallow:/*?* 禁止收录网站所有动态页面
Disallow:/ 禁止收录整个网站
Disallow: 网站开放收录,蜘蛛不受任何限制(与上一条的禁止网站收录很像,书写时要特别注意区别,避免网站不收录陷阱)
Disallow:/.gif$ 禁止收录所有gif图片($是匹配网址结束字符)
Disallow:/ *.php 禁止抓取.php结尾的文件
Allow:/*.html 允许收录以.html结尾的文件
Allow:/*.asp$ 允许收录所有以.asp结尾的文件
四、robots.txt文件实例分析
User-agent: * (允许所有搜索引擎收录)
Disallow:*/page/*(禁止收录根目录page子目录下的文件)
Disallow:/*?* (禁止收录动态页面)
Disallow:/date/ (禁止收录date目录)
Sitemap:https://www.***.com/sitemap.xml(指明sitemap路径,方便蜘蛛抓取)
相信经过seo的讲解,你已经能够独立设置robots文件,如果不能确定自己写的是否正确,seo强烈建议在谷歌管理员工具中进行试验,通过后再上传或更改robots文件,避免不收录陷阱。 |
|