前段时间参加武汉的一个seo圈子的小聚会,闲聊嗨皮之余,连同几个百度的工程师一起,具体的分析了下有关百度原创识别算法,在技术方面的一些细节,觉得蛮有意思的,就写出来大家一起沟通下,求拍矮个芝麻砖.
搜索引擎为什么如此重视原创?
早期的搜索引擎算法中,其实并没有原创这一项的判断.但是随着后来采集,转载的大规范泛滥,导致了用户很难搜索到自己真正想要的内容.大量的重复内容充斥在搜索结果中,让人眼花缭乱.
首先,由于后期采集技术的兴起,大量的转载内容充斥网络.转载,必然会对原创产生一定的损伤,比如去掉图片,删掉一些重要的段落,或者充斥大量非原作者的注释信息.不管这么做是为了什么,但是都会降低内容的质量,使得一个关键词搜索到的内容前十几页都是同样的内容,也就使得搜索变的很无用.因此促使了搜索引擎对于原创内容进行分级显示.
由于后期采集技术的逐渐强大,可以自动将一些同义词进行替换和修改,也就造成了转载文章的内容质量进一步下降.网络上充斥着大量的无法阅读的文章.也就更加促使了搜索引擎对于优质原创内容的筛选.
其实让矮个芝麻最为纠结的一件事情就是,写了一篇文章,被人转走,改改头部底部,就变成了一篇很是霸气的文章.久而久之,很是打击作者对于文章创新的积极性.这也是搜索引擎费尽心机试图寻找到原创文章的源头,予以优先显示的最初原因.尊重作者的版权,否则一篇文章的被转载,大量的流量被引流到其他的网站,将会直接影响到作者的收益.
搜索引擎如何判断一篇文章是否为原创?
1.1转载的良心,转载保留外连,作者名,声明转载等
个人觉得,这是一种纯良心的做法.因为在转载走的时候,删掉你的信息是很轻松的.当然,大量的采集可能不会删掉原作者留下的版权声明.这就给了搜索引擎一个很好的识别方式.首先,一般的门户在转载文章后,都会很礼貌的在标题后面留下一个[转]字.比较厚道一点的,还会在文章的底部或者头部留下转载源的链接.
转载源不一定是原创,但肯定更加有利于搜索引擎寻找到这篇文章的最终源头.目前已知的做法的,标题留 [转] ,底部留原作者的文章链接,文章的信息中显示转载于那个作者或者网站.这是目前最为主流的识别方式.
1.2技术层面的识别
当然,这么有礼貌的转载也只是转载采集大军中的一部分.还有相当大的一部分转载,会掐头去尾改标题,外连作者就更不要提了,直接在采集过程中屏蔽替换掉.或许这是国人山寨采集的一种习惯吧,就像QQ的icq,百度的谷歌,支付宝的贝宝...所以说对于这种行为,在这咱也不予评价.
搜索引擎对于这类文章的识别方式就更多的是通过技术层面的东西.最为优先级的就是,那篇文章优先被搜索引擎蜘蛛抓到.同时,文章中留下的时间,对于百度蜘蛛来说是有迷惑性的.也就是说你转载一篇5月18号发的帖子,把时间改成5月16号,百度蜘蛛是有一定概率被欺骗的.
同时,对于改标题这方面,百度有一个很模糊的算法.具体的做法就是对比标题和内容的关联性.具体的判断做法尚不清楚,但根据以往的经验来看,如果标题和内容完全没有关系,这篇文章很容易被百度忽视掉.这就说明搜索引擎对于这方面还是有一定的识别度的.同时,对于略有区别的两篇文章,百度可以根据内容的通顺程度,判断出哪一篇的质量更高.
采集内容很难识别,搜索引擎的算法有待提高
到这,很多人可能觉得搜索引擎的识别算法已经很强大了.但是事实是,采集的文章还是很难被识别.
1.1采集工具的伪原创学习能力很强大
因为现在的采集工具对于同义词,语句是否通顺的机器自我学习能力也是很强大的.现在采集的一篇文章经过采集工具的处理,即便是个人,也只是觉得语句略微僵硬,也很难感觉出这篇文章是出自软件之手,所以这也是搜索引擎目前很头痛的一点,因为这种文章的质量,毕竟要比原创差太多了.
1.2网页结构过于复杂,html结构难以识别
虽然有很多的网站在做符合搜索引擎优化方面的规范,但是内容区域和栏目,热门主题的推荐,广告等内容在html中的分离并不明显.这也就增加了搜索引擎对于内容的读取后的识别分离.通过web手机版的优化阅读就可以看出,目前百度其实还是会经常会无法区分哪些是文章的标题,哪些是作者,内容,发布时间等.这也就造成了最终对于原创内容的对比,存在一定的偏差.
1.3文章制造工具,直接生成原创文章
目前网络上流行着很多原创文章制造工具,比如直接从英文文章利用谷歌翻译翻译过来,利用语句的匹配自动匹配出一篇对于搜索引擎的蜘蛛看来是一篇完美的文章,但是对于用户来说,除了大量的关键词堆砌,毫无意义.
本文整理:合肥婚纱摄影 http://www.yanziphoto.com
搜索引擎关于原创文章的一些东西
分享到:
-
50193
网站
- 11171
小程序
-
11825
文章
-
2
会员
热门网站
- 52PCGame论坛 bbs.52pcgame.net
- 飞华两性频道 sex.fh21.com.cn
- 69乐园 69leyuan.lofter.com
- 玛雅(MAYA)官方网站 maya.com.cn
- 阿里钱盾 qd.alibaba.com
- 云南省国家税务局网上办税服务厅 etax.yunnan.chinatax.gov.cn/zjgfdzswj/main/
- 上海贵族宝贝论坛 guizubibi.com
- 三众能源 sanzenenergy.com
- 读秀网 duxiu.com
- 9877小游戏 099y.com
最新入驻小程序
热门文章
- 如何解除百度提醒网站存在安全风险方法 07-26
- 百度产品运营到底要做什么 07-26
- 关于域名历史的查询和处理 07-26
- 农林副产品要如何进行网络营销销售 07-26
- Google网站管理员工具 07-26
- 网络产品和传统产品的区别 07-26
- 医院该如何打造品牌服务策略 07-26
- 阿里巴巴关键词排名优化最常见最有效的几种方法 07-26
- 百度竞价推广计划及思路 07-26
- 关于网络营销的五大阶段介绍 07-26