网页信息在搜索引擎中的应用
发布时间:2009-04-14
搜索引擎的重点工作就是对网页的信息进行评价,然后将好的网页展示在用户的面前。本文旨在介绍搜索引擎对网页信息分析的基础工作流程。
网络信息挖掘技术可以提高搜索引擎获取信息的准确性,并可以对用户搜索结果进行相关处理,提高查准率和查全率。网络信息挖掘技术在搜索引擎中的应用包括:
(1)文档的自动分类。Web页面与一般的纯文本文件不同,它是HTML格式的超文本,页面中有
(2)自动文摘的形成。搜索引擎向用户返回检索结果时,通常要给出每个文档的简单摘要,目前,大部分搜索引擎是机械地截取文档的前几句。而通过Web文本挖掘中的文本总结技术,可以从Web页面中提炼出重要的信息,形成文档摘要,使用户能较全面地了解文档的内容。
(3)检索结果的聚类。搜索引擎的检索结果常包含大量信息,且其中大部分是与检索无关的信息。我们可以通过网络信息挖掘技术对检索结果的文档进行聚类,把结果信息用超链接方法以可视化方式提供给用户,由用户选择自己感兴趣的一簇,将大大减少浏览的页面数量。
(4)查询结果的相关度排序。Web页面中包含了许多超链接,有指向其他网页的,也有其他网页指向本网页的。因此,指向该网页的链接体现了该网页的引用情况。可用网络信息挖掘技术对网页引用的频率统计确定它的重要性和相关性,从而有助于对搜索引擎返回结果进行相关度排序。
(5)实现个性化的搜索引擎。目前,不同的人使用同一搜索引擎和同一检索词得到的结果相同,也就是说搜索引擎没有实现个性化检索,即没有考虑到人的地域、年龄、工作性质等方面的差别。但是,用户在使用搜索引擎搜索信息时,在网站服务器上留下了大量的有用信息,通过对这些信息的挖掘,可以发现一些与用户检索的关键词密切相关的网页,实现个性化检索。
综上所述,这是一个基本的搜索引擎工作流程,有助于大家加深对搜索引擎工作的认识。搜索引擎只有一个目的,就是提供最相关的搜索结果给用户。从搜索引擎优化的角度而言,我们也应该提供好的网页给搜索引擎。