搜索引擎工作原理,必须戳进来!不然怎么靠网站赚钱

加入会员,尊享特权

文章目录[隐藏]

想让网站排名靠前,必定离不开对搜索引擎原理的掌握,今天带大家来了解下网站排名靠前的先决条件!

搜索引擎工作原理

第一步 爬行

有过网站优化经验的人都清楚,搜索引擎抓取程序是沿着链接爬行的,如果没有链接就相当于没有路径,没有路径网站就不可能被搜索引擎抓取内容,收录页面。所以第一步必须要给搜索引擎链接。链接的方式有很多种给法,可以向各大搜索引擎提交网站域名和网站原创内容链接,也可以去找朋友或者平台建立友情链接交换,还可以去其他平台(论坛,贴吧,博客,B2B)发布外链。不管采用那一种方式,链接建设必不可少。

分析搜索引擎的工作原理

第二步 抓取

百度的抓取程序叫baiduspider(百度蜘蛛),也成为机器人bot。以百度为例 百度抓取的是网站页面上的文字信息,然后返回给百度数据库,数据库比对信息,如果信息已经存在,那么视为伪原创,不予收录到数据库,直接丢弃信息;如果信息不存在,那么视为原创内容,存进百度数据库,收录此网站内容页面。百度等搜索引擎是不会抓取图片,flash,动画,视频等内容的。

第三步 预处理

抓取工作完成之后,百度要对抓取的信息进行预处理,预处理的过程就比较复杂了,这边一步一步给大家分析一下。

1、提取文字

搜索引擎对抓取来的网页信息,提取其中的文字信息,丢掉除文字信息以外的内容。

2、中文分词

搜索引擎对提取出来的文字按照两种策略进行中文分词,第一种是基于词典的匹配,第二种是基于数据统计的匹配。举个例子重庆装修这个词就被分为重庆和装修两个词,这是基于词典的匹配策略;基于数据的匹配是看哪几个字挨着出现的几率比较高,这叫基于数据统计的匹配。

3、去停止词

提取出的文字信息中,像的,地、得这样的组词是毫无意义的,所以需要去掉。

4、消除噪声

哪种类型的信息叫做噪声呢?像网站里面的广告,版权信息,注册登录信息等,多网站没有任何作用,反倒会分散网站权重。所以需要消除掉!

分析工作引擎的工作原理是网站运营的基础

5、去重

去掉重复的信息。前面提到过搜索引擎都不需要重复的内容,第一会降低客户体验度,第二会浪费存储空间。所以原创的内容,是搜索引擎做喜欢的。伪原创什么的就别来了!

6、正向索引和倒排索引

每个文件对应一个ID,根据搜索词返回相应的页面信息

7、链接关系的计算

计算网站有多少外部链接/导入链接,多少内链,多少导出链接!评判网站权重

8、文件处理

除了HTML以外,搜索引擎还可以抓取PDF/WORD/WPS/XLS/PPT/TXT等文件。只是图片,视频,flash等还不能抓取和处理

第四步 排名

经过前面3步之后,最后一步就是网站排名了。网站排名会根据用户检索的关键词来匹配。把网站权重高,相关性高的页面,优先排在前面,其余网站再后面!这里要提到,百度只会返回1000个搜索结果给用户,但是1000个搜索结果已经可以完全满足用户需求了。

只有在了解搜索引擎的工作原理之后,才能更好的开展网站优化工作,提高网站排名

发表回复

后才能评论