对搜索结果排序的两种算法
发布时间:2009-12-03
能否把与用户检索需求最相关的高质量文档纳入结果排序的前面是衡量搜索引擎性能的关键技术之一。
任何一个搜索引擎的目的就是更快速的响应用户的搜索,把满足用户需求的搜索结果反馈给搜索用户。能否把与用户检索需求最相关的高质量文档纳入结果排序的前面是衡量搜索引擎性能的关键技术之一。Google最成功的地方在于利用PageRank对Google排名结果排序,让好的结果排在前面,从而提高了检索质量。
目前,不同的搜索引擎使用了不同的相关度排序方法。比较流行的有两类:词频统计法,即网页文档中出现查询词的频率越高,其排序就越靠前;超链接分析法,即一个网页被链接的次数越多而且链接的站点越权威就说明此网页的质量越高。此外,还有点击率法,即网页被点击的次数越多,相关度越高;付费竞价法,以网站付费的多少来决定排序前后。
1.词频统计法
词频统计法也就是向量空间模型采用的相似度计算方法。许多搜索引擎都以索引项的词频和位置作为相关度的判定标准,采用前述的词频加权方法来计算相关度。一个词在网页文档中出现的频率越高,它代表该文档主题的程度就越大,其作为索引项的准确性也就越高,权值就越大。在与查询词匹配时,它所代表的文档与查询请求的相关度就越高。除词频外,一个词在文档中的位置也对索引器选词和计算词的权值产生影响。例如在网页title标签、链点标签、Meta keyword标签、Meta description标签中选词并按词频计算权值时,或索引项出现在网页标题、文章前几段、段首等位置时,其权值会加大。虽然大多数搜索引擎都以词频和词的位置来计算相关度,但在细节上又各有不同。在计算网页的相关度时,其中各词的关系和词间的相对位置也是影响因素。网页中各词的相互距离越近则结果排序越靠前。以词频和词位置计算相关度的方法是较为客观准确的,它是应用最为广泛也是最成熟的方法,各大搜索引擎迄今仍以它作为计算相关度的基本方法。但它较易为人利用来实现不良竞争,轻易地把其网页设计修改成“含有关键词的网页”,从而在搜索引擎结果中排在前面。这使搜索引擎结果的客观性和准确性受到侵害,检索的查准率受到影响。各大搜索引擎于是实施了各种反操纵技术和惩罚措施,特别是在网页本身之外另辟蹊径,寻找相关度的判定标准,其中最主要的就是下面所述的链接分析法。
2.链接分析法
面对网络这个新的环境,必须使用新的排序技术才能达到较好的检索效果。由此,基于超链分析的各种排序算法被搜索引擎界提出。绝大部分超链分析算法都有共同的出发点:更多地被其他页面链接的页面是质量更好的页面,并且从更重要的页面出发的链接有更大的权重。最著名的链接分析法是Brin.s和Page.L于1998年提出并应用到Google搜索引擎中的PageRank,以及IBM用于CLEVER搜索引擎的HITS(Hypertext InducedTopic Selection)。