SEO个性化网页权重研究
发布时间:2008-10-30
个性化网页权重的常见形式就是个性化PageRank。现代搜索引擎对自然搜索引擎排名的排序依据除了使用传统的文本匹配技术以外,也广泛地使用网页权重值来进行。
个性化网页权重的常见形式就是个性化PageRank。现代搜索引擎对自然搜索引擎排名的排序依据除了使用传统的文本匹配技术以外,也广泛地使用网页权重值来进行。最为有名的例子就是Google的PageRank技术。利用web结构的链接关系,PageRank可以计算每个网页的权重值,并据此对结果网页进行排序。因此,如果利用用户的偏好信息来修改PageRank权重值的计算,据此就产生表达特定用户个性化信息需求的搜索引擎排序结果。从效果上看,这种方法较PageRank更为实用,因为毕竟用户是不可能全部遍历获取的查询网页结果集合,所以把和用户需求联系最为密切的网页放于搜索结果前面,必然更易于用户访问。其实,Page等早已提出个性化PageRank的设想,只是他们并没有在此项研究上深人地开展下去基于个性化网页权重的个性化搜索引擎模型。
现在,人们提出的个性化PageRank方法有很多,主要分为两大类:一类是直接修改基于超链关系得到的网页权重值;另一类是在传统PageRank公式上添加修正参数来反映用户的个性化要求。
在原先的PageRank计算公式中,模型对每个网页的链接分配了相同的概率值,所以这种方法给不同链接和网页分配的权重是一样的,当前网页的权重值也会平均地影响链出网页,同时它还假设用户随机跳转到其他任何网页的概率都是一样的。所以,这种计算方法主要是依赖于网页结构图中的链接来进行分析。但是,这些链接却是由网站的网页设计者生成的,因此它只能反映设计者对Web中其他网页的理解。另外,这种方法忽略了另外一个重要方面,那就是Web用户对Web网页的理解。也就是说,单纯使用网页之间的超链结构来表达网页权重值是不充分的。比较简单易行的修改网页权重做法就是利用Web日志挖掘信息来获取用户对Web网页的理解程度,以完善传统的PageRank计算方式。事实上,凭直觉可以判断出来,那些访问频率较高的超链应该比那些访问频率较低的超链更为重要,然而大部分的传统超链分析技术对这两者并不加以区分。
对于结合使用信息的超链分析技术最初是由Zhu等提出的,他们把相关公式称为PageRate,虽然他们也宣称自己的算法是PageRank的扩展,但是其实这种算法不具有任何PageRank的性质。这种算法对所有的链入不加区分,并不考虑高频访问和低频访问的区别。同时,他们也没有给出实验结论,对可能存在的问题也没有探讨,设计的公式还存在问题。
有些其他方面的研究也涉及使用信息分析。例如,使用一种增强学习方法来对搜索结果进行重排序和过滤,对于每个查询结果中的URL,系统都会记录不同用户的点击情况。在随后的查询中,上述信息就可以有效地提升高频访问的URL权值,而降低低频访问的URL权值这样的类似方法还应用于一些商业搜索引擎中,如有的学者就在多元搜索引擎中利用上述方法实现一种隐式的相关度反馈机制,它将用户点击产生的使用情况主要用于结果网页合并和网页重排序等操作中旧。用户使用信息还应用于基于模式的应用程序中,主要功能是及时学习用户的兴趣,并对搜索结果重排序以反映这种用户兴趣,如按照用户模式的特征改变不同主题词的相对重要程度。
比较好的方法是利用挖掘Web日志中的信息结合传统PageRank公式得出一种新的网页权重计算公式,即结合使用挖掘的PageRank,如特征敏感的PageRank(usage aware PageRank,UPR)。它结合了静态链接结构分析和用户使用分析两项技术:一方面仍然强调传统网页间的超链关系;另一方面,它通过分析日志,判断这些实际存在的网页超链中究竟哪些是经常被用户访问的,哪些不是经常被用户访问的,并以此来改进传统方法中由超链关系产生的网页权重值。在UPR方法中,甚至还可以通过调整参数设置来控制静态链接结构分析技术和Web使用挖掘技术的作用力度,如果参数设置为O,公式就等价于传统的PageRank公式,如果参数设置为1,则重点就转移到使用挖掘分析算法上,介于两者之间则会兼顾,因此这种方式较传统方式更为概括。从效率上看,这种算法也有优势,只需通过一次额外的预处理步骤,其他的迭代处理和传统方式没有区别。
然而这种新的方法也存在不足之处。即使网站管理员可以得到自己站点用户的访问信息,并将其应用于UPR分析,但是这些信息显然没有包含全部的必要信息,如管理员不可能获得不属于自己站点访问内的链出网页使用情况。虽然可以通过爬虫程序遍历那些网页的超链结构,但是除了可以获得用户通过哪些网页的链出网页访问本地网页的使用信息,并不可能获得其他更为重要的使用信息。也就是说,从站点层次上看,全部的结构信息和使用信息是可以全部获取的,然而从整个Web网络层次上看,却是不完整的。同时,对单一的应用技术而言,整个Web网络上的用户使用信息也是无法完整获取的。诸如Google搜索工具栏等客户端应用程序,虽然它们可以收集用户的使用信息,而且这些信息也确实是基于整个web范围而言的,然而这里所涉及的用户范围是相当小的,他们首先必须安装客户端应用程序,而且必须进行相关设置以同意公开这些属于个人隐私的Web访问信息。需要说明的是,诸如Google搜索工具栏之类的软件在默认情况下是尊重用户的个人隐私权的,除非用户自己允许,它并不主动收集任何用户访问的信息,当然也有其他一些客户端应用程序似乎并不遵守上述原则。
因此,这种结合使用挖掘的PageRank最适用于网站内部的网页搜索,搜索引擎工作的原理先获取该网站的结构信息,结合用户使用信息,可以得到传统PageRank方法的扩展模型。实验结果也能证明这种算法更能有效地提升高访问频率的网页权重值,相应地降低那些低访问频率的网页权重值。
随着搜索引擎技术慢慢走向成熟,越来越多的搜索引擎优化工作者以及很难从搜索引擎的表象去研究SEO。近一年时间以来,Google、百度等搜索引擎不断调整链接分析技术,加深SEO门槛。SEOER也必须随着搜索引擎的发展而发展。