搜索引擎的排序和算法
发布时间:2009-02-23
如何在检索结果提供时,将最符合检索要求的资源在排列中靠前,成为提高检准率的重要手段。
搜索引擎的一个突出问题是,关键词搜索返回的网络资源数量过多,用户很难完整地浏览,研究发现,多数普通用户在检索时,只浏览前一、两页的网络资源。因此如何在检索结果提供时,将最符合检索要求的资源在排列中靠前,成为提高检准率的重要手段。针对这一情况,网络关键词搜索系统的搜索结果提供,一般都采用按匹配加权的方式加以排序显示,即在返回全部搜索结果的同时,按照与搜索需求的符合程度排序显示,以便将最符合用户需求的资源在前面显示,在保持检全率的同时提高检准率。
由于这一原因,自从主题搜索引擎使用以来,好的搜索排序方案成为反映搜索引擎质量的关键因素之一。不同的系统往往采用不同的排序提供策略,著名搜索引擎如Google多年来被一些机构评为最佳搜索引擎,其率先提出PageRank算法,优化了搜索排序的效果,是一个重要的因素。根据目前能见到的资料,各种搜索引擎用来确定网络资源排序依据的因素,基本上涉及两个方面,其一是相关性因素,即确定其内容是否符合搜索提问;其二则是重要性因素,即判断该资源本身是否有价值。从实际使用情况看,目前采用作为排序依据的加权方案涉及的因素通常包括:
1.词频。即将搜索关键词的匹配词频作为排序显示的一个因素。搜索关键词词的匹配数量是资源相关性的一个基本因素。在这类算法中,反文献频率往往被作为一个因素纳入权值计算的范围。
2.词汇一致度。在使用多个词进行搜索匹配时,通常需要根据不同词汇的匹配度分配权值,如,文本与搜索式中的词是全部匹配还是部分匹配,文本检索词的词序与搜索式的次序是否一致以及搜索词的距离因素等,均可以根据情况确定相应的权值。
3.词位因素。即根据匹配词出现位置的重要程度给予不同的权值,传统数据库系统中通常将标题、关键词、文摘、小标题、首段、尾段、段落的首句、一般的正文等赋予不同的权值,在网络搜索中,一般根据网络文本的特点,对标题、黑体字、URL等的词分别给予特定的权值。
4.链接因素。根据链接的情况赋予相应权值,作为排序的依据。比较典型的如(Google按照PageRank算法,将链接数量以及链接对象的重要程度作为排序依据;Teoma则采用按照同一专业领域网站(Community)的链接情况作为重要性依据的排列策略。
5.点击因素。即根据用户使用情况,将使用频率较高的搜索对象赋予相应权值,提前排列。如HotBot采用Direct Hit技术,对用户的搜索结果集进行分析,根据访问网站的用户的数量和用户在网站平均停留时间来判断哪些网站是“受欢迎的网站”,然后对检索结果进行重新排序,提高那些符合检索要求而又“受欢迎的网站”在结果集中的排名,相应降低不受用户关注网站的排名。
6.排除商业因素。如,某些系统若发现搜索对象与人为增加搜索要素的商业公司网站有联系,则不予排列,以保持系统排列的客观性。