北京SEO优化

小楠老师
北京SEO优化学习网

百度真假蜘蛛IP识别

    百度真假蜘蛛IP如何识别?判断百度蜘蛛的鉴别方法

    很多SEO从业人员在刚刚接触这个行业的时候,经常会问——百度蜘蛛是什么?我们可以理解为百度蜘蛛就是用来抓取网站链接的IP,小编经常会听到百度蜘蛛来的太频繁,服务器要被抓爆了,如果你无法识别百度蜘蛛,你怎么知道是百度蜘蛛抓爆的呢?也有出现百度蜘蛛都不来了的情况,还有很多站点想得到百度蜘蛛的IP段,想把IP加入白名单,但无法识别百度IP。

    那怎么才能识别正确的百度蜘蛛呢?来来来,只需做着两点,就能正确识别百度蜘蛛

    一、查看UA,如果UA都不对,可以直接判断非百度搜索的蜘蛛,目前对外公布过的UA是:

    移动UA:Mozilla/5.0(Linux;u;Android4.2.2;zh-cn;)AppleWebKit/534.46(KHTML,likeGecko)Version/5.1MobileSafari/10600.6.3(compatible;Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

    PCUA:Mozilla/5.0(compatible;Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

    新增渲染UA:

    移动UA:Mozilla/5.0(iPhone;CPUiPhoneOS9_1likeMacOSX)AppleWebKit/601.1.46(KHTML,likeGecko)Version/9.0Mobile/13B143Safari/601.1(compatible;Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)

    PCUA:Mozilla/5.0(compatible;Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)

    二、反查IP

    站长可以通过DNS反查IP的方式判断某只spider是否来自百度搜索引擎。根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:

    正确识别百度蜘蛛

    (1)、在linux平台下,您可以使用hostip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以*.baidu.com或*.baidu.jp的格式命名,非*.baidu.com或*.baidu.jp即为冒充。

    (2)、在windows平台或者IBMOS/2平台下,您可以使用nslookupip命令反解ip来判断是否来自Baiduspider的抓取。打开命令处理器输入nslookupxxx.xxx.xxx.xxx(IP地址)就能解析ip,来判断是否来自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com或*.baidu.jp的格式命名,非*.baidu.com或*.baidu.jp即为冒充。

    (3)、在macos平台下,您可以使用dig命令反解ip来判断是否来自Baiduspider的抓取。打开命令处理器输入digxxx.xxx.xxx.xxx(IP地址)就能解析ip,来判断是否来自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com或*.baidu.jp的格式命名,非*.baidu.com或*.baidu.jp即为冒充。

    搜索引擎蜘蛛不抓同IP?剖析蜘蛛抓取运行

    我们做网站的都知道互联网上的页面都是由蜘蛛抓取的,其实蜘蛛自身就是一段代码依次,当互联网出现新页面时蜘蛛就会过去爬。因为互联网每天将发生几千亿个页面,那么一个蜘蛛是相对没法在短时间内爬完的,所以搜刮引擎会发生少量的蜘蛛尽能够的爬完全部互联网。每个蜘蛛代表的意义又分歧,那么我们如何知道哪些蜘蛛是抓取首页,哪些是抓取内页呢?

    百度爬虫

    文章仅供参考让对IIS日记各引擎的蜘蛛IP有个更深的了解,,依据分歧的IP我们可以剖析网站是个如何的形状.下面就依照IIS日记上的百度蜘蛛IP为例:

    下面就依照IIS日记上的百度蜘蛛IP为例:

    123.125.68.*这个蜘蛛经常来,其余来的少,表现网站能够要进入沙盒了,或被者降权。

    220.181.68.*每天这个IP段只增不减很有能够进沙盒或K站。

    220.181.7.*、123.125.66.*代表百度蜘蛛IP拜访,准备抓取你器械。

    121.14.89.*这个ip段作为度过新站查询拜访期。

    203.208.60.*这个ip段出现在新站及站点有不正常现象后。

    210.72.225.*这个ip段不连续巡查各站。

    125.90.88.*广东茂名市电信也属于百度蜘蛛IP主要形成成分,是新上线站较多,还有应用过站长搜刮引擎优化对象,或SEO技巧综合检测形成的。

    220.181.108.95这个是百度抓取首页的公用IP,如是220.181.108段的话,基原本说你的网站会每天隔夜快照,相对错不了的,我保证。

    220.181.108.92同上98%抓取首页,能够还会抓取其他(不是指内页)220.181段属于权重IP段此段爬过的文章或首页基本24小时放出来。

    123.125.71.106抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或收集文章。

    220.181.108.91属于综合的,主要抓取首页和内页或其他,属于权重IP段,爬过的文章或首页基本24小时放出来。

    220.181.108.75重点抓取更新文章的内页到达90%,8%抓取首页,2%其他。权重IP段,爬过的文章或首页基本24小时放出来。

    220.181.108.86公用抓取首页IP权重段,通俗前去代码是30400代表未更新。

    123.125.71.95抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或收集文章。

    123.125.71.97抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或收集文章。

    220.181.108.89公用抓取首页IP权重段,通俗前去代码是30400代表未更新。

    220.181.108.94公用抓取首页IP权重段,通俗前去代码是30400代表未更新。

    220.181.108.97公用抓取首页IP权重段,通俗前去代码是30400代表未更新。

    220.181.108.80公用抓取首页IP权重段,通俗前去代码是30400代表未更新。

    220.181.108.77公用抓首页IP权重段,通俗前去代码是30400代表未更新。

    123.125.71.117抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或收集文章。

    注:以上IP尾数还有很多,但段位一样的123.125.71.*段IP代表抓取内页收录的权重比拟低.能够因为你收集文章或拼文章临时被收录但不放出来.(意思也就是说待定)。

百度真假蜘蛛IP识别

    220.181.108.83公用抓取首页IP权重段,通俗前去代码是30400代表未更新。

    220.181.108.*段IP主如果抓取首页占80%,内页占30%,这此爬过的文章或首页,相对24小时内放出来和隔夜快照的,这点我可以保证!

    抓取前去代码都200,前去304代表网站没更新。

    好了,说了这么多,是否是看的眼花缭乱了,呵呵,不外不妨,只需你了解了他的意思,你就不会这么认为了,每天可以用日记剖析对象看看哪些ip段的蜘蛛来过你的网站,哪些内容被抓取了,就可以很好的了解你自己网站的哪些缺少和需求改良的中央了。


提交反馈或者评论清添加老师QQ:3384634250
特别声明:文章摘自网络或由作者自行整理;本文仅供交流学习,,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。若无意侵犯到您的知识产权作品或损害了您的利益,烦请发送邮件与我们取得联系3384634250@qq.com,我们会及时修改或删除。
cache
Processed in 0.008185 Second.