北京SEO优化

小楠老师
北京SEO优化学习网

robots文件

    整个网站不能收录或某个目录下所有页面都不能收录,经常是因为robots.txt文件出差错起的。网站工具抓取工具权限部分显示出Google所抓取的robots文件内容。

    robots文件中的任何一个字母差错都可能造成致命影响。站长应该检查robots文件中的每一行代码正确,不会错误禁止应该被收录的文件或目录。

    在编写robots.txt文件之前,首先我们需要了解什么是robots.txt文件。robots.txt文件是指定给搜索引擎spider程序的收录规则。一般情况下搜索引擎spider程序自动访问互联网上的网站时,会首先检查该网站根目录下是否有robots.txt文件,这个文件用于指定spider对网站的抓取范围,如果没有robots.txt文件或robots.txt文件为空则表示允许spider抓取网站上所有内容。

    其次我们需要把robots.txt文件放在正确的位置。robots.txt文件应放置在网站根目录下,例如何昌全博客(https://www.jhmsk.com/)相应的robots.txt文件的地址为:https://www.jhmsk.com/robots.txt

    那么,我们开始学习正确的robots.txt文件编写规则。

robots文件

    正确的robots.txt文件用法举例:

    1、禁止所有搜索引擎抓取网站的任何部分

    User-agent:*

    Disallow:/

    请注意!有一些新手朋友正是误把以上robots规则理解为允许所有搜索引擎抓取网站的任何部分,导致搜索引擎不收录网站。

    2、允许所有的spider抓取(或者也可以建一个空的robots.txt文件)

    User-agent:*

    Allow:/

    以上robots规则是允许所有搜索引擎抓取网站的任何部分,但为避免错误,建议建一个空的robots.txt文件即可。

    3、禁止spider抓取特定目录

    User-agent:*

    Disallow:/a/

    Disallow:/b/

    Disallow:/c/

    以上例子,禁止所有的spider抓取a、b、c目录。这个规则我们最常用到,比如网站的程序后台、程序目录等都可以禁止spider抓取,以减少spider无意义的浪费我们的空间资源。


提交反馈或者评论清添加老师QQ:3384634250
特别声明:文章摘自网络或由作者自行整理;本文仅供交流学习,,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。若无意侵犯到您的知识产权作品或损害了您的利益,烦请发送邮件与我们取得联系3384634250@qq.com,我们会及时修改或删除。
cache
Processed in 0.016009 Second.