如何使用Robots避免蜘蛛黑洞?
蜘蛛黑洞:
蜘蛛黑洞指的是网站通过极低的成本运营,制造出大量和内容相识但参数不同的动态URL,像一个无限循环的“黑洞”将蜘蛛困住,蜘蛛花费太多的时间在网站,浪费了大量资源抓取的网页为无效网页。
如果你的网站存在蜘蛛黑洞现象,尽快的处理好,蜘蛛黑洞不利于网站的收录,也会影响搜索引擎对网站的评分。
如何使用Robots避免蜘蛛黑洞?
如何利用Robots避免蜘蛛黑洞操作:
普通的筛选结果页基本都是使用静态链接,比如:
http://bj.XXXXX.com/category/zizhucan/weigongcun
当用户选择不同排序后,会自动生成带有不同参数的动态链接,即使选择是同一种排序条件,生成的参数也有不同的,比如:
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c
把带有不同参数的结果排序页面使用robots规则拒绝,告知搜索引擎,让搜索引擎只抓取筛选结果页,为用户和搜索引擎节省时间。
Robots文件写法中Disallow:/*?*禁止访问网站中所有包含问号(?)的网址,通过这种方式,如果网站的无效页面不希望被搜索引擎收录,可以屏蔽掉低质量的页面,告诉搜索引擎哪些页面可以抓取,有效的避免黑洞的形成。
什么是metarobots标签?metarobots标签的写法
网站上有些页面不希望被搜索引擎收录,我们可以使用robots的文件或者metarobots标签。
什么是metarobots标签?
metarobots标签是页面head部分meta标签的一种,用于指令搜索引擎禁止索引(收录)本页内容。
metarobots标签的写法:
<metaname=”robots”content=”noindex,nofollow”>
标签的意义:禁止所有搜索引擎索引本页面,禁止跟踪本页面上的链接。
Noindex:搜索引擎不索引此网页(可以抓取,但不出现在搜索结果中)。
Nofollow:搜索引擎不继续通过此网页的链接索引搜索其它的网页。
<metaname>=”robots”content=”noindex”>
标签的意义:禁止索引本页面,但允许蜘蛛跟踪页面上的链接,也可以传递权重。
使用了noindexmetarobots标签的页面会被抓取,但不会被索引,也就是说页面URL不会出现在搜索结果中,这一点与robots文件不同。
metarobots标签的作用:
1、不想让网站被收录使用metarobots标签,禁止搜索引擎索引本页,同时禁止跟踪页面上的链接。
2、禁止索引本页面,但是允许蜘蛛跟踪页面链接,也可以传递权重。
metarobots标签很多搜索引擎是不支持的,只有少数搜索引擎能够识别并按给定的值抓取。因此还是推荐用robots.txt文件来限制抓取,大家了解有关metarobots标签知识以及写法。