服务吧 | 专业唐山网站建设团队,为您服务创先争优,做网站您说话!
7×24小时技术服务QQ:449324 联系电话:0315-8167331

技术文章

网站robots.txt使用中常见的误区

时间:2012-04-28 10:49来源:未知 作者:小万 点击:

前几天写了robots.txt的规则误区并介绍百度和Google的robots工具的使用,介绍了几个robots.txt文件的规则的误区,然后发现其实不止那些,还有很多大家没有注意的误区。

今天重新列举一下常见的robots.txt实际使用中的误区:

误区1.Allow包含的范围超过Disallow,并且位置在Disallow前面。

比如有很多人这样写:

User-agent: *

Allow: /

Disallow: /mulu/

想让所有蜘蛛抓取本站除/mulu/下面的url之外的所有页面,禁止抓取/mulu/下面的所有url。

搜索引擎蜘蛛执行的规则是从上到下,这样会造成第二句命令失效。也就是说禁止抓取/mulu/目录这条规则是无效的。正确的是Disallow应该在Allow之上,这样才会生效。

误区2.Disallow命令和Allow命令之后没有以斜杠”/”开头。

这个也很容易被忽视,比如有人这样写Disallow: 123.html ,这种是没有效果的。斜杠”/”表示的是文件对于根目录的位置,如果不带的话,自然无法判断url是哪个,所以是错误的。

正确的应该是Disallow: /123.html,这样才能屏蔽/123.html这个文件,这条规则才能生效。

误区3.屏蔽的目录后没有带斜杠”/”。

也就是比如想屏蔽抓取/mulu/这个目录,有些人这样写Disallow:/mulu。那么这样是否正确呢?

首先这样写(Disallow: /mulu)确实可以屏蔽/mulu/下面的所有url,不过同时也屏蔽了类似/mulu123.html这种开头为/mulu的所有页面,效果等同于Disallow: /mulu*。

正确的做法是,如果只想屏蔽目录,那么必须在结尾带上斜杠”/”。

文章来自逍遥博客,本文地址:http://liboseo.com/1193.html,转载请注明出处和链接!

唐山网站建设www.fw8.net (责任编辑:小万)
关键词:误区,斜杠,屏蔽,抓取,规则
------分隔线----------------------------

最新案例

更多>>

客服中心

网站首页 各类cms仿站 唐山做网站 域名注册 客户案例 关于我们 在线留言 联系我们
网站法律顾问:ITLAW-庄毅雄律师
网站备案号:冀ICP备12021829号
Copyright © 2010-2012 fw8.net, All Rights Reserved

关键词: 唐山网站建设| 唐山网站制作| 唐山网络公司| 唐山网站制作官方博客|