当前位置:首页 > SEO名词

关于Baiduspider_百度蜘蛛【长春SEO】



  Baiduspider是百度搜索引擎的一个自动程序,它的作用是访问互联网上的网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站上的网页。

Baiduspider的user-agent是什么

  产品名称 对应user-agent

  无线搜索 Baiduspider

  图片搜索 Baiduspider-image

  视频搜索 Baiduspider-video

  新闻搜索 Baiduspider-news

  百度搜藏 Baiduspider-favo

  百度联盟 Baiduspider-cpro

  商务搜索 Baiduspider-ads

  网页以及其他搜索 Baiduspider

如何判断是否冒充Baiduspider的抓取

  1、站长工具IP查询(http://ip.chinaz.com/)

  2、nslookup ip命令反解ip来源判断是否来自Baiduspider的抓取

  nslookup使用 电脑运行cmd

  C:Usersleoma>nslookup 220.181.108.95

  服务器: ns2.hn.cnc.cn

  Address: 58.20.127.238

  名称: baiduspider-220-181-108-95.crawl.baidu.com

  Address: 220.181.108.95


  2016百度Spider3.0时代_Baidu Spider3.0介绍_3秒钟看懂Baidu Spider3.0_长春SEO自学网

  首先我们了解一下什么是Baiduspider?Baiduspider是百度搜索引擎的一个自动程序,它的作用是访问互联网上的网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站上的网页。

  

 

  BaiduSpider上一次升级还要追溯到2010年。过去了6年的时间,BaiduSpider升级到3.0,抓取速度提升了80%,抓取的速度也更加快了!

  那个时候,中国互联网资源急剧扩张,从百亿扩大到千亿规模,因而spider系统进行了重构,从单机互联转变为分布式计算系统。

  但是有一个很大的缺点:延时严重!

  而此次重构是把当前离线、全量计算为主的系统,改造成实时、增量计算的全实时调度系统,万亿规模的数据进行实时读写,可以收录90%的网页,速度提升80%!

  

   

一、链接发现方面

  如今sipder每天发现的新链接在500亿左右的量级,而在百度站长平台提交链接是其中最为高效的,特此,工程师提醒站长不要过度提交链接,尤其是低质链接,这样才能达到更好更及时的收录效果。

二、链接抓取方面

  策略上,开发了更强大的机器学习模型,来进行链接的质量预测,对库中所有的链接进行全局排序,对有价值链接的召回率提高95%!

  架构上,计算性能的强劲提升,对每天新增的数百亿模块的链接,完成实时计算,延时不到1秒;开发了更强大的存储系统,面对万亿规模的数据做到实时读写。

三、时效性页面方面

  中长尾站的福音!针对时效性资源,从原来的优先对新浪、网易等大新闻站进行抓取,扩大到覆盖全网的新闻、博客、论坛等站点进行快速抓取,大小站都能优待。

  打破老的平稳抓取模型,采用按需抓取机制,对有时效性新资源,做到秒级抓取。

  目前,每天收录的时效性资源规模,扩大到原来的3倍,达到近1亿量级!

四、死链方面

  全新的死链识别模型,能识别各种协议死链、内容死链、跳转死链等低质网页。

  其中无效低质网页(如被黑),通过百度站长平台提交,可加快检索屏蔽的过程。

五、建库方面

  索引展现时效性提升,原来是10天左右,现在提升40%~80%不等!

  百度Spider3.0时代,可以让抓取链接速度快上加快,索引展现提升到40%~80不等。


关于Baiduspider_百度蜘蛛【长春SEO】 http://www.121seo.cn/mingci/255.html
以上文章出自长春SEO自学网未经作者许可,不得转载。2017-10-26 13:42:26"

分享到:
相关推荐: