搜索引擎的工作原理
发布时间:2008-05-22
不管是计算机自动搜索型,还是人工分类目录型,其搜索引擎的主要工作步骤如下。1)从互联网上抓取网页、2)建立索引数据库、3)在索引数据库中搜索排序。
搜索引擎的工作原理
1.计算机自动搜索型
计算机自动搜索型的“网络机器人”多或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定lP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。为保证采集的资料最新,它还会回访已抓取过的网页。网络机器人或网络蜘蛛采集的网页,还要有其他程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。我们平时看到的计算机自动搜索型,实际上只是一个搜索引擎系统的检索界面,当输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现出来。不同的搜索引擎,网页索引数据库不同,排名规则也不尽相同,所以,当以同一关键词用不同的搜索引擎查询时,搜索结果也就不相同。
2.人工分类目录型
和计算机自动搜索型一样,人工分类目录型的整个工作过程也同样分为收集信息、分折信息和查询信息三部分,只不过人工分类目录型的收集,分析信息两部分主要依靠人工完成。人工分类目录型一般都有专门的编辑人员,负责收集网站的信息。随着收录站点的增多,现在一般都是由站点管理者向人工分类日录型递交自己的网站信息,然后由人工分类目录型的编辑人员审核递交的网站,以决定是否收录该站点。如果该站点审核通过,人工分类目录型的编辑人员还需要分析该站点的内容,并将该站点放在相应的类别和目录中。所有这些收录的站点同样被存放在一个“索引数据库”中,。用户在查询信息时,可以选择按照关键词搜索,也可按人工分类目录型逐层查找。如以关键词搜索,返回的结果与计算机自动搜索型一样,也是根据信息关联程度排列网站。需要注意的是:人工分类目录型的关键词查询只能在网站的名称、网址、简介等内容中进行,它的查询结果也只是被收录网站首页的URL地址,而不是具体的页面。人工分类目录型就像一个电话号码簿,按照各个网站的性质,把其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详细地址,一般还会提供各个网站的内容简介,用户不使用关键词也可进行查询,只要找到相关目录,就完全可以找到相关的两站(注意:是相关的网站,而不是这个网站上某个网页的内容,某一目录中网站的排名一般是按照标题字母的先后顺序收录的时间顺序决定的)。
3.主要工作步骤
不管是计算机自动搜索型,还是人工分类目录型,其搜索引擎的主要工作步骤如下。
1)从互联网上抓取网页
通过“网络蜘蛛”或人工收集的方法,从互联网抓取网页,存放到数据库中。
2)建立索引数据库
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其他网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
3)在索引数据库中搜索排序
当用户输人关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。