搜索策略

发布时间：2009-02-23

如何根据链接结构及对网络数据的分析确定适用的访问策略，是信息采集的关键。常见的访问策略包括常规遍历算法和优化遍历算法两类。

网络资源数量巨大，种类多样。任何搜索引擎要采集所有的网络资源，既不可能，也没有必要。如何根据链接结构及对网络数据的分析确定适用的访问策略，是信息采集的关键。常见的访问策略包括常规遍历算法和优化遍历算法两类。

常规遍历形式，通常包括广度优先算法、深度优先算法、IP地址搜索策略等。

广度优先算法按照链接的层次进行，在访问完一个层次后再进行下一层次的访问，如此由浅入深、逐级进行。这一算法可以增加访问的广度，使得多个服务器的上层资源得到采集，但链接结构中层次较后的有价值资源往往难于获得。

深度优先算法从起始页面出发，沿页面上的某一个链接进行搜索，逐级深入，一直到达底层网页，才返回起始页，选择其他链接进行类似的访问。这种算法可以遍历一个站点F的深层页面，但会影响它的遍历广度或遍历的时间，有时还有陷入循环状态的危险。

IP地址搜索策略将访问限制在指定的IP地址范围中，不考虑各文档中指向其他站点的链接。这种算法能够有针对性地对于特定领域的资源进行采集，适合于按照特定目的编制的搜索引擎。

上述各种方式在实际使用中也可以根据需要，结合使用，例如将广度优先与深度优先结合等。但一般情况下，这些常规遍历形式通常只提供一般的访问算法，并不能优化采集的质量。要改进采集质量，应当按照使用的需要，选择与系统有较高相关性且质量比较高的网页，并结合采用相应的优化采集算法。有些论文论述了网络采集中常用的一些优化算法，包括：

(1)兴趣驱动(Interest-driven)。即以用户需求作为网页采集的依据。通常依据检索杏询与网络的匹配度确定，方法是依据选定的查询词集作为网页采集的依据，根据查询词与网页文本的匹配程度确定其相关性，同时结合该词在整个网页库中的反文献频率(idf)，确定其重要性值。由于使用idf项需要的全局信息在采集过程中无法得到，可根据已采集到网页的平均值或以过去数据的估算值加以代替。

(2)流行驱动(Popularity-driven)。即判断重要性程度或得到承认的广泛程度，方法是考察指向它的链接数量。采用这一方式，通常应计算出网页获得的链接数量，并将这一数量作为是否采集的依据。更加全面地判定网页重要性的方法，是使用Google的PageRank算法，同时计算链接该网页的其他网页的重要性，但这一方法需要涉及相关网页的链接情况，在采集的情况下很难做到。

(3)网址驱动(Location-driven)。即不是以内容，而是将网址作为判定网页重要性的依据，包括，对特定域名赋予高值，进行针对性采集；对于包含特定字串如"home"的地址赋予高值；选用带有较少斜线的网址等。网址驱动容易操作，在特定系统中也十分有用。例如在专业搜索引擎中，可以明确将选定的网站、域名作为网页采集的边界。

URL列表的排序控制是在采集控制器中进行的，在未获得网页的情况下，网址驱动是一个可以直接加以采用的方式，如北大天网在搜索中采用这一方法；但对于相关性判断或重要性判断，由于在访问过程中，不可能事先得到该网页数据，一般只能利用采集器已采集的信息作为依据。例如，利用已采集网页的锁定文本(Anchor Text)来估计特定网页可能包含的文本，甚至以“邻近”网页的文本作为评估依据等。某个文献记录了采用上述方法在有限范围中试验的情况。一些论文讨论了结合数据挖掘进行采集优化的问题，但目前仍缺乏大型搜索引擎实际应用的例子。

澳门新葡萄新京威尼斯观点

搜索策略