知其然,知其所以然,了解了搜索引擎的工作原理让你更加高效搜索
旺道朋友圈广告 -> 最新发布

一、搜索引擎的工作原理

日常大家用到的搜索引擎其实大多所使用的工作流程都是一样的。通常是1.信息收集;

2.信息分析;3.信息系统建立;4.用户查询这四步。

信息系统用户查询信息收集信息分析

建立

但是由于各个搜索引擎所采取的细节战略不一样,所以我们得到的结果也不尽相同。比较典型的案例之前咱们也提到过,例如信息宽度优先的GO0GLE和百度等平台搜索,也有信息垂度优先的链家和携程这样的垂类平台搜索。今天咱们更深入的了解一下这些搜索引擎背后的工作原理。

简单来说,搜索引擎工作的主要四大部分,也是搜索引擎的工作流程包括:用蜘蛛爬虫爬取数据——分析系统分析数据——建立索引——查询结果。根据这四大步骤流程,我们的搜索引擎除了我们能看到的网页,主要也分这四大部分。

1.蜘蛛爬虫

我们每天有无数的人无数次点击搜索引擎去搜索各种各样的东西,而每一次搜索都在短短的零点几秒内就能搜到数万条甚至是千万条的信息供我们参考。为什么搜索引擎能够找到这么多结果呢?主要是依靠这些叫蜘蛛的机器人,每天24小时不眠不休地在网站上爬取各种各样的信息。

这些搜索引擎派出去的蜘蛛爬虫是怎么工作的呢?它们首先就是出去寻找各种网站的链接,在发现了链接后会把这个网页下载下来并且存入到临时的库中,并且继续提取这个网页的所有链接,如此循环。

那么搜索引擎的蜘蛛爬取网页有规律吗?答案是有的!如果没有规律、漫无目的的爬取,影响工作效率不说,也会影响爬取回来的信息的结果。所以,蜘蛛爬虫爬取网页的时候也会采取一定的策略,比如有时候会采用深度优先的策略,即把爬取到的结果里面,一层层爬取越深的链接越优先。或者采用宽度优先的策略,即爬取到的网页的子网页越宽越优先。

蜘蛛爬虫对于已经爬取过的网页还会进行重访,因为网页会更新、迭代、或者消失。为了保证搜索结果的时效性和准确性,爬虫会采取全部重访或者单个重访的方式来重新抓取信息。

在蜘蛛爬虫获取信息之后,这些网页信息就会进入我们的第二个系统:数据分析系统。

2.数据分析系统

爬取回来的网页,搜索引擎不会一股脑儿地全都吞下,而是要进行基本的数据分析处理,变成能够存储到索引系统的部分。这就像我们打猎一样,打回来的猎物要进行基本的处理才能存储起来。那么数据分析主要进行哪些步骤呢?

·清理

简单来说就是把爬取回来的网页代码进行删除,重复内容进行清理,然后把关键内容提取出来,就像我们把买回来的菜再去掉多余的部分、清洗干净、然后切段整理一样。

·链接分析

这一步骤中,搜索引擎会查询这个页面的反向链接有多少、导出链接又有多少,然后给页面权重进行评分。

.存入索引库

这一步就是搜索引擎在进行了前面的步骤后提取正文的内容,然后把内容分成N个词,进行排列然后存入索引库。

3.索引系统

当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。

4.查询系统

最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

二、搜索引擎的分类

在认识我们的搜索工具这一节,以及垂直搜索这一节课程中,我们对于搜索引擎有了功能上和操作上的了解。而刚刚我们又了解搜索引擎的基本工作原理,在有了这些基础之后,我们在这里再进一步给大家做一个搜索引擎的分类,从而能够更深刻的理解为什么我们面对不同的搜索场景需求,要采取不同的搜索策略。

1.全文搜索引擎

全文搜索引擎就是我们一般意义上认识的搜索引擎,包括我们身边的Goog1e、Baidu等耳熟能详的大搜索引擎,都属于是全文搜索引擎。之前介绍的搜索引擎的主要工作步骤,也是全文搜索引擎的用法。

2.元搜索引擎

元搜索引擎是指,在通过搜索对话框里接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。这种搜索引擎不需要大量的爬虫去爬取海量的网站信息,而是直接问各大搜索引擎要就行了,而且可以集中多个搜索引擎的资源。著名的元搜索引擎有webcrawler、Dogpile、Vivisimo等,比如webcrawler会在谷歌和雅虎两个搜索引擎中进行检索。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的搜索引擎给出来的结果则是按引擎白定的规则将结果重新排列组合,如Vivisimo。

3.垂直搜索引擎

前面的课程中我们也介绍过垂直搜索引擎,和大型搜索引擎相比,使用垂直搜索引擎搜索范围更小、更精准。

大型搜索引擎的数据库储存了互联网上几亿至儿十亿的网页索引。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。所以当你死磕百度而得不到想要的答案时,也可以更多的去尝试多平台搜索,同时配合咱们之后讲到的小技巧,成功率会高很多。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。

三、高精度搜索的技巧

第五课中,我们己经学习了一些搜索指令。这节课,再为大家介绍几个能够让你更加深度挖掘搜索结果的技巧。在对搜索引擎的工作原理有了上面的了解之后,我想这些技巧理解起来会更加容易,而灵活使用这些技巧也能够让我们对搜索引擎的操控更加自如,从而迈向更高水平的搜索高手行列。

1.精确检索:“”(引号)和《》(书名号)的使用

在之前的课程我跟大家说过,提取关键词的搜索往往要口语化的一整句输入搜索出来的结果更多更好,因为机器不是人,无法提炼其中的关键字。但是,这并不绝对,其实更多的是取决于你的搜索场景和需求。

比如,有一次我在咖啡馆听到一首歌,是一个女声吟唱的英文歌,声音非常动听,歌词也非常优美。我想立马知道这是什么歌,是谁唱的,但是当时我只听到了其中一句歌词,是“Are you really here”,这是非常常见的一句歌词,没有很特别,如果我直接在搜索引擎中输入这句话,搜索出来的相关度会很低,因为搜索的结果会出现把这句歌词从中间拆分的情景。

这个时候,加上“ ”(双引号)或者《》书名号,就可以实现一句话不拆开的精确检索了,即把一整句话作为一个整体来检索。这样会大大提高检索的准确性。

2.字段检索

在第五课中,我们学习了inurl指令的使用,主要是用来限制网址中必须包含的字段,可以用这个方法把某一类的网址一网打尽。比如,我们在租房搜索的案例中,就使用了“inurl:gov.”,其中gov是英文government的缩写,只有在政府的网站上才会带有gov的字段,表示搜索的结果限制在政府的网站中。那其实我们还有很多其他的字段可以使用,插入这些字段,配合inurl使用,可以准确地把某一类型的网站筛选出来。在这里给大家做一个能够经常用到的字段总结:

如果你有一定的英语基础,还可以用类文进行内容检索。这里有一些英语的搜索指令,如果用在搜索英语的学术论文或者一些文献的时候,会大大地提高搜索的效率。比如,py是publication year的缩写。“1a”是指搜索语言,用1a=English,就可以把语言限制在英语中。搜索1ink:(输入网址A),就可以搜到哪些网页中放了A网址的链接。比如link:whitehouse.gov,就可以搜到有多少个网页放了白宫的链接。

这些搜索技能在你面临量大、点散、又要深入挖掘相关领域资料的时候,是非常好用的,尤共对于从事研究、写作或者咨询类的朋友米说,可以大大减少搜索时间。

3.模糊检索:*(星号)和?*(问号)的使用前面两点都讲的是如何让搜索更精确,这里讲一讲如何利用*(星号)和?*(问号)进行模糊搜索。这个技巧对于做学术文献检索尤为有效。

这个怎么使用呢?我给大家举一个例子,比如在英文中woman和women都代表女性,一个是单数一个是复数,中问就个字母的差异。在检索中,如果你想搜索既包含单数也包含复数的女性,就可以用wom*n,或者wom?n来模糊掉中间的这个字母带来的限制,于是不管是单数还是复数就都可以包括进来了。值得注意的是:虽然星号*是常用的,但百度不支持*号搜索指令。我们用Goog1e来举个例子。比如在Goog1e中搜索:中国文学*其中的*号代表任何文字。返回的结果就不仅包含“中国文学”,还包含了“中国文学网”,“中国文学论坛”,“中国文学在线”“中国文学家园”等内容。

同样的还可以应用在,比如*ology来表示专业领域,因为ology是表示学科的一个词根,比如生物学在英文中就是biology。

根据自己的需要,通过用这两个符号代替搜索中把不确定的部分模糊掉,扩大搜索范围,以便起到更好地和搜索引擎交互的效果,这边是模糊搜索的意义。

总结:知其然,还知其所以然

知其然,知其所以然,了解了搜索引擎的工作原理让你更加高效搜索

教育培训机构-如何策划节日招生?
做教育培训,最重要的事情莫过于招生了。面对不同的学员,招生方…于招生。目标不同,活动策划也会不一样。② 活动主题要鲜明不仅主题要鲜明,主题之间要有连续性。就像看连续剧一样,一集接一集,一环扣一环。策划好一系列活动,一个接一个来,从多个角度延续活动的宣传,突出主题,引起关注度。常用的招生方式有:体验课招…-------------想要获得更多运营技巧、doc文案,
教育培训:如何提高满班率和续班率
什么是满班率?就是实际人数除以计划招生人数,这个值就是满班率…员有流失是正常的,但要保证一个概率。在保障老学员续期的基础上,我们也要大胆创新,开设网络课程,拓宽招生区域。实地课程录制后,进一步发行到商弈云课上,通过商弈云课系统转成真实流量,网上有人点击观看,点赞,可以按点播量分佣金。助你在日常的营销推…-----------------------想要获得更多运
培训机构难盈利的问题出在哪里,如何实现盈利?
竞争白热化实地培训班、托管辅导班竞争白热化了,利润越来越稀薄…现没有多少盈利。还有一部分负责人在刚招生时,掌握了不少资金,开始盲目扩张,盲目做课程推广,以期待获得更多生源和收费,从而使培训班陷入了这种恶性循环的陷阱里。其实这些到手的钱,并不是你的利润,而是你未来要支出的钱。如遇到行业快速发展时期,或者…-----想要获得更多运营技巧、doc文件,请“关注”并“转
“差异化”经营是网络培训赚钱的关键所在
“差异化经营”这个词,相信大多数人都耳熟能详,但要做到的却是…。在现有的基础上更新升级或者资源整合就是对现有的产品或者技术,进行升级版本,或者通过一些资源整合,成一个项目。你的技能以前是用来生产或制造产品,现在是把技能升级成知识培训,转换云课堂。直白一点就是可以让老师自行录好课程并上传到学校的商弈云课…在着缺点和不足之处。在创新改革时,要从功能、服务、价格等方面
教育培训行业是如何运作的?
以前读书时,学校附近有个小摊卖鸡蛋灌饼。刚开始的时候只有一家….%,剩下的一对一和多人大班其实市场份额都很小。家长报培训班,是希望孩子能够学到知识。老师通过课上教学和课后辅导来满足孩子的需求,达到成绩提高的目标。我见过上百人的大培训班,为什么一个班这么多人?因为是名师讲课,但人太多坐后面,基本听不到重…是你的核心竞争力。想要得到用户的认同,你就必须做到产品质量好
旺道:实体店怎么做网络营销?
年纪大了,体力不好了,便赚不了什么钱了。所以,一定要在年轻的…写文案都是非常头痛的事情,那么下面我会给大家提供一个解决方案。在互联网营销系统里面有很多细节营销,软文营销就是其中一种,但好多小白头痛写文章,所以可以用这个方法也一样可以植入广告语,或者是图片广告,轮显切换广告,使用 旺道营销系统,也就是每…以帮你吸引海量精准粉丝。有了粉丝,你通过广告、产品、服务就可
旺道:圈里圈外,铁饭碗距离瓷饭碗究竟有多远?
中国人爱混圈子,从线下一直混到线上,各种奇形怪状的圈子勾勒出…不能推则敷衍了事,盼着混到主任科员退休;一种是老黄牛式,踏踏实实、兢兢业业工作,但拙于人际关系,活干得最多,但依旧不见晋升迹象;还有一种是提线木偶式,你扯一下线他动一下,好像脑子和身体是分离的。我突然一拍脑袋,这是提前衰老的迹象啊,工作内容…即使选择留在铁饭碗圈里,也应保有随时离开的思想警惕和进行必要
旺道:微信要双开了,朋友圈推广更好做了
现在手机只能登一个微信,如两个,三个微信的小伙伴们就只能退出…动推广工具、 设置头像点击头像图标,点“+”选择图片,可以上传你的企业,个人头像,产品服务等。旺道微信朋友圈广告免费朋友圈广告-旺道、 设置推广主题点“广告”,再点“+”设置推广的主题(类别),填好中文主题,以及你的网址。教你不花一分钱做朋…简直就是一劳永逸哟。如果你点开发布的文章看不到广告,那就是你
旺道:如何能让网站多个关键词排名百度首页?
最近接了一个单,做婴儿游泳馆加盟的。优化推广范围是全国,但是…泳馆加盟哪家好”、“婴儿游泳加盟多少钱”这类与我息息相关的词。如何能让网站多个关键词排名百度首页?但客户并不认同,客户说这个词指数低,或者说搜的人不多。是,这是一方面原因。但是,指数低有什么关系,你是卖产品还是卖指数。搜的人不多有什么关系,…实现广告效果最大化,来满足大众化的广告需求。对于这样的四两拔
旺道:如何成为网络营销达人?这个技能帮你节省80%的时间
在某次名师讲坛上,听到了一个让人警醒的故事。说有个村子缺水,…准的产品。现在已经不是新鲜事物,好多企业因为百度竞价的高额费用,头疼不已,所以做网站关键词优化排名,成为了企业必选的推广项目。做优化也要做到有成效,不然就是一分钱也是昂贵的。用 旺道智能机器人 就可以持续代替人工去做,它非常聪明,只要你够耐…手,设备先进,你多努力奔跑也于事无补。简单说,要去一个地方,

此文章来源来互联网,如果你有任何版权冲突,可以联络我们,微信号:WANCOME,QQ:1444641。加我们时,请说明来意,我们将优先处理你的问题。




商弈云推  | 圈推广  | 随手推  | 圈推广  | 跨圈推
粤ICP备10213132号
旺道商标注册证号:8608864
Copyright © 2016 环企网络信息科技有限公司 版权所有