亲爱的站长朋友们,网址目录为广大站长提供免费收录网站服务,免费收录任何网站。本目录的域名是: www.802203.com

新站提交
  • 网站:50193
  • 待审:312
  • 小程序:11171
  • 文章:11825
  • 会员:2

  按照现在网络上所有的Sprider的作用及表现出来的特征,可以将其分为三大类:批量型Sprider、增量型Sprider和垂直型Sprider。

  1.批量型Sprider

  一般具有明显的抓取范围和目标,设置抓取时间的限制,抓取数据量的限制,或抓取固定范围内的页面限制等。当Sprider达到预先设置的作业目标工作就会停止,普通站长和seo人员用的采集工具或程序,所派出的sprider大都属于批量型sprider,一般只抓取固定网站的固定内容,或者设置对某一资源的固定目标数据量,当抓取的数据或时间达到设置限制后就会自定停止,这种sprider就是很典型的批量型sprider。

  2,增量型Sprider

  增量型Sprider也可以称之为通用爬虫。一般可以称为搜索引擎的网站或程序,使用的都是增量型sprider,但是站内搜索引擎除外,自由站内搜索引擎一般是不需要sprider的。增量型sprider和批量型sprider不同,没有固定目标、范围和时间限制,一般是会无休止的抓取下去,直到把全网的数据抓完为止。增量型sprider不仅仅抓取尽可能全的页面,还要对已经抓取到的页面进行相应的再次抓取和更新,因为整个互联网是在不断变化的,单个网页上的内容可能会随着时间的变化不断更新,甚至在一段时间之后该页面会被删除,优秀的增量型蜘蛛需要及时发现这种变化,并反映给搜索引擎后续的处理系统,对该网页进行重新处理。当下百度,google网页搜索等全文搜索引擎的sprider,一般都是增量型sprider。

  3,垂直型Sprider

  垂直型蜘蛛也可以称之为聚焦爬虫,只对特定主题、特定内容或特定行业的网页进行抓取,一般都会聚焦在某一个限制范围内进行增量型的抓取。对此类型的sprider不像增量型sprider一样追求大而广的覆盖面,而是在增量型sprider上增加一个抓取网页的限制,根据需求抓取含有目标内容的网页,不符合要求的网页会直接被放弃抓取。对于网页级别纯文本内容方面的识别,现在的搜索引擎sprider还不能百分之百地进行准确分类,并且垂直型sprider也不能像增量型sprider那样进行全互联网爬取,因为那样太浪费资源。所以现在的垂直搜索引擎如果有附属的增量型sprider,那么就会利用增量型sprider以站点为单位进行内容分类,然后再排出垂直型sprider抓取复合自己内容要求的站点;没有增量型sprider作为基础的垂直搜索引擎,一般会采用人工添加抓取站点的方式来引导垂直型sprider作业。

  总结:Sprider也就是大家常说的爬虫、蜘蛛或机器人,是处于整个搜索引擎最上游的一个模块,只有sprider抓回的页面或URL才会被索引参与排名。需要注意的是,只要是Sprider抓取到的URL,都可能会参与排名,但参与排名的网页并不一定就被Sprider抓取到了内容,比如淘宝,天猫那些robots屏蔽的网站。
    文章由作文无忧(http://www.zuowenwuyou.com/)原创投稿,转载请注明出处。

分享到:

  admin

注册时间:

网站:0 个   小程序:0 个  文章:0 篇

  • 50193

    网站

  • 11171

    小程序

  • 11825

    文章

  • 2

    会员

赶快注册账号,推广您的网站吧!
热门网站
最新入驻小程序

体质自测2019-07-26

测测你是什么体质

游戏王查卡器2019-07-26

游戏王卡牌信息查询工具一枚

邀约小助手2019-07-26

聚会、约饭、组织活动?邀约小助手

炉石传说小盒子2019-07-26

炉石传说天梯强势卡组展示与查询

拜年语2019-07-26

拜年语提供了大量的春节祝福,可以

查快递小助手2019-07-26

扫一扫,自动识别快递单。提供上百