揭幕关于搜索引擎是如何识别原创

    首先要明确一点，本文探讨范围仅限内容页，而非专题页、列表页和首页。那么我在甄别这两类文章之前，我需要先进行信息的采集。本文对于spider程序部分不进行阐述。当spider程序下载下来网页信息后，在内容处理的模块中，我需要先对内容除噪。

   如果是我，我会喜欢什么样子的文章呢？我会喜欢我的用户喜欢的文章，如果硬要加判定标准，那无外乎是两种：1.原创且用户喜欢。2.非原创且用户喜欢。在这里，我的态度很明显，伪原创就是非原创。那么用户喜欢什么样的文章呢？很显然，一些新观点、新知识往往是用户喜欢的，也就是说通常原创文章都是用户喜欢的，而且即便用户不喜欢，原创站点作为新鲜内容的制造者，也应该受到一定的保护。那么非原创的文章用户就一定不喜欢吗？诚然否也。一些站点，其内容往往是经过搜集整理后聚合而成的，那么这些站点对用户来说就是有价值的，其相对应的文章理应获得较好的排名。

    很多SEO他们懒，进行所谓的伪原创，你说你伪原创时插入点自己的观点与资料也成，结果你们就是改个近义词什么的，于是我就用到了特征向量，通过特征向量的判断，把你们这些低劣的伪原创抓出来。关于这个，判断思想很简单，你权重最高的前N个关键词集合极为相似的时候，判断为重复。这里所谓的相似包括但不仅仅局限于权重最高的前N个关键词重合，于是构建了特征向量，当对比的两个向量夹角与长度，当夹角与长度的差异度小于某个特定值的时候，我将其定义为相似文章。

   如果是一个注重用户体验的聚合性网站，那么他的作用是将现有的互联网内容经过精心的分类与关联，来方便用户更好、更有效的阅读。针对这样的站点，即便其文章不是原创而是从互联网上摘抄的，我也会给予其足够的重视与排名，因为它良好的聚合内容往往更能满足用户的需求。

   你们说，为什么当站文章中有大量相同时，会快速引起搜索引擎惩罚呢？这里我说的不是摘抄与原创的问题，而是你站内自己和自己的文章重复。之所以搜索引擎反应这么快，同时惩罚严厉，根本原因就是在你的文章中，他提取不到内容。现在基本上搜索引擎对于原创的识别，在大面上采用的是关键词匹配结合向量空间模型来进行判断。Google就是这么做的，在其官方博客有相应的文章介绍。这里，我就做个大白话版本的介绍，争取做到简单易懂。

    我相信很多SEO从业者刚接触这行时，就听说过一件事，就是内容页面导出链接要具有相关性。还有一件事，就是页面下面要有相关阅读，来吸引用户纵深点击。同时应该还听人讲过，内链要适中，不可太多等。但很少有人会说为什么，而越来越多的人因为不明其内在道理，而渐渐忽视了这些细节。当然，以前的一些搜索引擎算法在内容上的注重程度不够，也起到了推波助澜的作用。   文章由http://www.jiaoyu0532.com整理   如需转载，请标明出处，谢谢！

揭幕关于搜索引擎是如何识别原创

体质自测2019-07-26

游戏王查卡器2019-07-26

邀约小助手2019-07-26

炉石传说小盒子2019-07-26

拜年语2019-07-26

查快递小助手2019-07-26