搜索引擎是什么_搜索引擎由来及原理介绍

  • 时间:2025-11-27 22:25 作者: 来源: 阅读:11
  • 扫一扫,手机访问
摘要:说起搜索引擎,可能大家会觉得有点陌生,但说到浏览器,相信大家就知道是什么东西了。这几乎是使用电脑时,都会打开它来到网上搜索一些自己想要的东西。在如今信息传播如此发达的年代,网上可谓是集合了各种各样的资讯以及信息,但如何在这么多的东西里面找到自己想要的,也就会用到所谓浏览器的软件了。而浏览器,就有如谷歌、Edge、搜狗、某60、火狐等等......其中它们所提供的搜索框,有个名字叫做“搜索引擎”,毕

说起搜索引擎,可能大家会觉得有点陌生,但说到浏览器,相信大家就知道是什么东西了。这几乎是使用电脑时,都会打开它来到网上搜索一些自己想要的东西。在如今信息传播如此发达的年代,网上可谓是集合了各种各样的资讯以及信息,但如何在这么多的东西里面找到自己想要的,也就会用到所谓浏览器的软件了。而浏览器,就有如谷歌、Edge、搜狗、某60、火狐等等......其中它们所提供的搜索框,有个名字叫做“搜索引擎”,毕竟浏览器是比较通俗点的说法而且还好懂,在上面想要找什么只用输入后点击搜索就行,而搜索引擎就没咋了解了,也不知道它在浏览器里面是干什么的。其实它俩是一个东西,至于它的具体内容,就看接下来部分的介绍,带大家了解一下。

什么是搜索引擎?它是怎么来的?

我们常说的浏览器,它其实还是有个抽象点的概念的:搜索引擎是一种根据特定策略、运用计算机程序自动从互联网搜集信息,经过组织处理后为用户提供检索服务的系统。

你可以将它理解为一间巨大的“网络图书馆”,当你在前台找书的机器上通过输入关键词,该机器会在后台进行检索,如果有被收录的话,即能快速返回所需的例如网页、图片、视频等资源的结果并展示给你面前了。

那么,它到底是怎么来的呢?就不得不提到一段关于它的历史了:1990 年 9 月 10 日,由加拿大麦吉尔大学的三名学生 Alan Emtage、Peter Deutsch 和 Bill Wheelan 发布的世界上第一个被公认为搜索引擎的程序 Archie。Archie 能够自动索引当时互联网上匿名 FTP 服务器中的文件名称,用户可通过文件名查找文件所在位置。只是尽管它仅支持 FTP 文件检索而非网页内容,却因此奠定了后来搜索引擎发展的基础。

它的工作原理是什么?

当然,了解下关于它是如何运作的还是有一定必要的,毕竟几乎每天都在用,但对于它背后经历了哪些,我们也是不清楚的,但知道在自己点下搜索键后,结果一下就出来了,而至于一时没出来可能也就会怀疑是不是网络问题卡了......

首先,搜索引擎的工作可以概括为三个核心步骤:抓取(爬虫)→ 索引 → 排序。具体可以看看下面的介绍:

(1)抓取(爬虫)

搜索引擎使用一个称为“网络爬虫”(Spider/Crawler)的程序(如浏览器),它会自动遍历互联网上的网页链接,下载页面内容并保存到它的数据库。其中爬虫会遵循网站设置的 robots.txt 规则,定期回访以更新网站内容并显示。

(2)索引

当它抓取后的网页经过解析、分词等处理,提取关键词并构建倒排索引(Inverted Index)。倒排索引记录了每个关键词出现在哪些网页中,这使得检索时不必扫描全部网页,极大提升查询速度。

(3)排序

当用户输入需要搜索的词或句子后,搜索引擎从索引中找出包含这些词的网页,并依据相关性算法(如 PageRank、TF‑IDF、内容质量、用户行为等)对结果进行打分排序,把最相关、贴近的页面排列出来,由上往下。

以上就是其工作原理的简要介绍了,可能你看完后还是不懂,那看看这个例子:假设你在外边突然饿了,想找一家附近的川菜馆吃饭,然后你用手机的搜索引擎搜索,接着它就会按照你输入的来进行抓取,加上你开了定位后它会在附近抓取大众点评、美团、餐厅官网等页面,也存储了餐厅名称、地址、评分、菜单等信息(抓取的步骤)。而期间罗列出来的这些信息被分解为“川菜”“附近”“评分”“地址”等关键词,并建立顺排或倒排索引(例如“川菜”对应页面 A、B、C,也就是索引)。而排序起到的作用就是当你输入“附近川菜馆”,系统则检索索引,找出同时包含“川菜”“附近”的页面,再根据你的位置、餐厅评分、评论数量等因素进行排序,最终把最可能满足你需求的几家餐厅显示在结果前列。

它在背后完成了这么多的操作,却在自己面前只是用网络加载一会儿的时间,没多久就能显示在你面前了,整个过程也就几秒或不到1秒就完事了。

关于它,还有其它内容吗?

在看完上面的内容后,我们知道了它是什么以及其工作原理。但可能你不知道,先前谷歌工程师就这方面问题有过相关的说法,不妨看看是怎么说的(节选部分):

另外,还说到通过关键字在网页出现的频率,还要看关键字是出现的标题还是内容或是网址,包括有没有同义词等等一系列的条件层层筛选。还要考虑页面的PR值,PR值就是PageRank,意思是页面等级,PR值越高页面的权重就越高,重要性越高。最终,搜索引擎会结合所有的因素为每个网页评分,在我们提交搜索后马上把搜索结果呈现出来。

以上便是谷歌的工程师讲解的谷歌平台的工作原理。

到这个部分了,也就拓展一部分它的知识。我们日常用的如谷歌、百度、搜狗、某60等浏览器它们属于是通用搜索引擎,其实还有专注于某一领域(如机票、学术、视频),例如 YouTube(视频)、Google Scholar(学术)的垂直搜索引擎;以及同时调用多个引擎的结果(如 Dogpile)的元搜索引擎;最后是不追踪用户搜索记录的隐私搜索引擎,可以说是好几种类型,但日常通用搜索引擎已经能满足使用了。

在近年来,随着AI技术的发展,也出现了生成式 AI 被引入搜索引擎中,例如百度的 AI 对话搜索,接入了AI能进一步优化搜索,你应该也体验过,就是在你输入搜索内容后,它接下来就会直接生成概括性答案而非仅提供链接点击跳转。

总结:

因此,自世界上第一个搜索引擎自 1990 年 Archie 诞生以来,已从简单的文件名检索工具演变为如今融合爬虫、倒排索引、复杂排序算法乃至AI人工智能的信息检索生态系,属于是发展的很成熟了,由以往的单一搜索变为了能结合AI去搜索,减少了很多在显示出来的网页中接着找需要的内容的时间。

而在 AI 技术的不断进步以及搜索引擎的不断优化,相信未来的搜索引擎会更加智能、个性化。若后续能加入分析我们过往搜索和经常搜索等进行分类以及一些交互或其它功能,就能为我们提供更多的便利。

  • 全部评论(0)
手机二维码手机访问领取大礼包
返回顶部