澳门新葡萄新京威尼斯观点

搜索策略

发布时间:2009-02-23

如何根据链接结构及对网络数据的分析确定适用的访问策略,是信息采集的关键。常见的访问策略包括常规遍历算法和优化遍历算法两类。

网络资源数量巨大,种类多样。任何搜索引擎要采集所有的网络资源,既不可能,也没有必要。如何根据链接结构及对网络数据的分析确定适用的访问策略,是信息采集的关键。常见的访问策略包括常规遍历算法和优化遍历算法两类。

常规遍历形式,通常包括广度优先算法、深度优先算法、IP地址搜索策略等。

广度优先算法按照链接的层次进行,在访问完一个层次后再进行下一层次的访问,如此由浅入深、逐级进行。这一算法可以增加访问的广度,使得多个服务器的上层资源得到采集,但链接结构中层次较后的有价值资源往往难于获得。

深度优先算法从起始页面出发,沿页面上的某一个链接进行搜索,逐级深入,一直到达底层网页,才返回起始页,选择其他链接进行类似的访问。这种算法可以遍历一个站点F的深层页面,但会影响它的遍历广度或遍历的时间,有时还有陷入循环状态的危险。

IP地址搜索策略将访问限制在指定的IP地址范围中,不考虑各文档中指向其他站点的链接。这种算法能够有针对性地对于特定领域的资源进行采集,适合于按照特定目的编制的搜索引擎。

上述各种方式在实际使用中也可以根据需要,结合使用,例如将广度优先与深度优先结合等。但一般情况下,这些常规遍历形式通常只提供一般的访问算法,并不能优化采集的质量。要改进采集质量,应当按照使用的需要,选择与系统有较高相关性且质量比较高的网页,并结合采用相应的优化采集算法。有些论文论述了网络采集中常用的一些优化算法,包括:

(1)兴趣驱动(Interest-driven)。即以用户需求作为网页采集的依据。通常依据检索杏询与网络的匹配度确定,方法是依据选定的查询词集作为网页采集的依据,根据查询词与网页文本的匹配程度确定其相关性,同时结合该词在整个网页库中的反文献频率(idf),确定其重要性值。由于使用idf项需要的全局信息在采集过程中无法得到,可根据已采集到网页的平均值或以过去数据的估算值加以代替。

(2)流行驱动(Popularity-driven)。即判断重要性程度或得到承认的广泛程度,方法是考察指向它的链接数量。采用这一方式,通常应计算出网页获得的链接数量,并将这一数量作为是否采集的依据。更加全面地判定网页重要性的方法,是使用Google的PageRank算法,同时计算链接该网页的其他网页的重要性,但这一方法需要涉及相关网页的链接情况,在采集的情况下很难做到。

(3)网址驱动(Location-driven)。即不是以内容,而是将网址作为判定网页重要性的依据,包括,对特定域名赋予高值,进行针对性采集;对于包含特定字串如"home"的地址赋予高值;选用带有较少斜线的网址等。网址驱动容易操作,在特定系统中也十分有用。例如在专业搜索引擎中,可以明确将选定的网站、域名作为网页采集的边界。

URL列表的排序控制是在采集控制器中进行的,在未获得网页的情况下,网址驱动是一个可以直接加以采用的方式,如北大天网在搜索中采用这一方法;但对于相关性判断或重要性判断,由于在访问过程中,不可能事先得到该网页数据,一般只能利用采集器已采集的信息作为依据。例如,利用已采集网页的锁定文本(Anchor Text)来估计特定网页可能包含的文本,甚至以“邻近”网页的文本作为评估依据等。某个文献记录了采用上述方法在有限范围中试验的情况。一些论文讨论了结合数据挖掘进行采集优化的问题,但目前仍缺乏大型搜索引擎实际应用的例子。

分享至share
  • pin
  • weibo
  • wechat
email

tel 24小时免费服务咨询热线:400-080-3010

立即咨询立即咨询 联系我们联系我们