1、了解搜索引擎先从蜘蛛开始
百度、谷歌、搜狗等这些搜索引擎都是提供内容,给广大的搜索用户,那么他们是怎么发现这些内容的呢?说白了,就是他们各自己的蜘蛛程序,到各大互联网网站去抓取内容,就是网并且存档下载的形式。蜘蛛抓取内容,就是从权威网站、高权重网站开始的。这也就是为什么我们要发布外链,权重越高对于网站排名越好的原因之一。
2、了解下管理蜘蛛的控制器
我们知道,互联网中的内容,或者说叫网页,是以亿为单位计算的,所以用一只蜘蛛程序那明显是不可能完成抓取任务的。需要成千上万的蜘蛛程序,这时候就需要一个管理蜘蛛程序的一个控制器。它的作用包括:要给蛛蛛分类、去哪里抓取?多长时间去一次,这么说起来象不象公交的调度呢。对了,你可以把它理解公共汽车站的调试室,这个控制哭掌握着所有的蜘蛛的日常工作。
所以我们的网站越靠近互联网上的权威网站,越让蜘蛛程序省事省力,那么我们对它就越友好,所以这里就需要我们做好网站的内部优化,让蜘蛛程序无阻碍,并且要靠近开始抓取的那个源头。
3、蜘蛛把抓取来的文件放入原始数据库
原始数据库就有库房的功能。在这个仓库里边,开始对这些数据,进行编号,提取的时候是以URL为依据,然后进行分类。值得一提的说,百度的快照也是从这里产生的。这里的数据是最原始的,没有经过过滤的,也就是抓取来的网页有很多是垃圾。下一部是干什么呢,我想大家应该有些小清楚了吧。
4、网页分析
在这里,就要把前面抓取来的网页,开始做分析。去重,去除镱相网页,网页的权重的计算,全部是在这一块完成的。这里的网页分析,就是搜索算法的核心之一了,就象百度这么些年来,它的算法是核心机密,是不会被我们所知道的,那么我们到底能不能分析出它的一个算法的秘密呢,是可以的你接着往后面看就可以了。
5、搜索引擎的索引库
这里最主要的功能就是索引了,就是把各自网页的关键词,和每个页面相对应该。比如我们搜索”114查标网“那么它就是通过索引,把114查标网这个关键词,和含有这个关键词的页面都联系起来,然后通前面的权重计算直接返回给搜索者。这个索引库里边包括,成千万级别的,甚至是亿万级别的、关键词,关键词的位置,关键的标签。以及各网页的属性。这里是搜索引擎内容的最的一个系统,走到这里,只需要等待关键词被激怒。然后返回结果就可以了。
6、搜索引擎的检索系统
这是针对我们用户而言的,当我们输入一关键词组的时候,正式启动了搜索引擎的检索系统,他会对这些我们输入的关键词,进行分词,比如,我们输入,商标注册就有可能被分为、商标、注册、商标注册这个组词,当然了他的分词系统相当复杂,并象我举的例子这么简单。分完之后,激活搜索引擎的索引库,前面说过了索引库就是关键词和网页形成联系的一个地方。然后返回一个排列结果,给用户。
7、搜索引擎的最后一个功能
就是用户接口,当你搜索完成之后,搜索引擎返回结果给你,然后会将你的一系列动作做保存,比如你的查询时间、查询关键词、你的IP、点击的URL、查询的时间都进行保存。用于提高用户体验。
介绍到这里搜索引擎的基本原理算是介绍完了,那么回归到我们的主题,我们如何利用发现搜索引擎的算法呢?其实方法也很简单
本文整理:空心楼盖 http://www.hfqiangqiang.com
掌握搜索引擎排名有利于seo工作
分享到:
-
50193
网站
- 11171
小程序
-
11825
文章
-
2
会员
热门网站
- 52PCGame论坛 bbs.52pcgame.net
- 飞华两性频道 sex.fh21.com.cn
- 69乐园 69leyuan.lofter.com
- 玛雅(MAYA)官方网站 maya.com.cn
- 阿里钱盾 qd.alibaba.com
- 云南省国家税务局网上办税服务厅 etax.yunnan.chinatax.gov.cn/zjgfdzswj/main/
- 上海贵族宝贝论坛 guizubibi.com
- 三众能源 sanzenenergy.com
- 读秀网 duxiu.com
- 9877小游戏 099y.com
最新入驻小程序
热门文章
- 如何解除百度提醒网站存在安全风险方法 07-26
- 百度产品运营到底要做什么 07-26
- 关于域名历史的查询和处理 07-26
- 农林副产品要如何进行网络营销销售 07-26
- Google网站管理员工具 07-26
- 网络产品和传统产品的区别 07-26
- 医院该如何打造品牌服务策略 07-26
- 阿里巴巴关键词排名优化最常见最有效的几种方法 07-26
- 百度竞价推广计划及思路 07-26
- 关于网络营销的五大阶段介绍 07-26