PageRank研究的一些结论
发布时间:2009-02-12
结合PageRank的算法原理以及实证分析,利用PageRank判断网页的质量具有一定的可靠性和可行性,这方面已经得到行业的认可,但在评价中必须考虑以下几个方面的问题:
结合PageRank的算法原理以及实证分析,利用PageRank判断网页的质量具有一定的可靠性和可行性,这方面已经得到行业的认可,但在评价中必须考虑以下几个方面的问题:
1.对评价对象抽取样本进行试验,检验PageRank值对评价该主题网页质量的可靠性和可行性,如根据“SEO”的相关网站的PageRank值与网页的质量未见相关性。对于该主题,不能轻易使用PageRank来判断网页的质量。
2.不同语言的网页的PageRank值不具有可比性,经过我们的试验显示,中文网页的PageRank值远低于英文网页的PageRank,也就是说,同等质量的内容,中文网页的PageRank远低于英文网页。
3.PageRank值不适用于评价中文网页。从实验中可以看到,中文网页的PageRank值绝大多数仍为0。
中文网页PageRank值得分低,至少有3个方面的原因:一是语言的影响使网页在全球范围内传播能力弱于英文网页。第二,与中文网页的链接行为有关。在以往的实验中,发现PageRank为零的网页所在的网域的PageRank并不低,很多高达5或6,也就是说,中文网页的链接通常更多的是链接到网站的主页,而不是链接到资源所在的网页,这使一些网页内容很好的网站不一定获得更多的权威链接,影响其PageRank值。第三,从实证一和实证二中发现,对于以“PageRank”为关键词检索到的网页,中文网页的内容90%以上来自于博客(blog)网站或论坛,一些被评价为好的网页的内容多来自对国外文章的编译,而其他大量的网页内容仅几句话。英文网页的内容有些来自于学术机构(以edu、ac为网域)或专家的个人网站。
4.PageRank的算法在评价学术网页时,有其本身的缺陷:,PageRank的算法未考虑到网页的日期问题。从实证中发现,有的网页质量较高,但PageRank值却很低,进一步观察发现这些网页的日期很新。分析PageRank算法,也可以发现PageRank算法未考虑网页的新旧问题,一个刚发布的优质网页,可能因为没有多少外部链接而被PageRank视为低等级,相反,一个旧的质量较一般的网页,可能因为时间累积,造成外部链接相对较多,而排名居前。第二,PageRank算法未考虑域的价值,在学术网页的评价中,这显然是一个缺陷。由于网络中存在大量的广告,因此,来自域edu、ac的网页通常比来自com、net的网页更具有学术性。对于这类网页只有人工增加权重以弥补上述缺陷。
由此可见,只有在对PageRank的评价作用、适用范围有清楚的把握时,才能使用这一指标进行网页质量评价。
网站的内容质量取决于构成网站的诸网页的内容质量,检索到网站关于某主题的相关网页后,将相关网页的PageRank值之和作为网站的PageRank值,这样,PageRank就从评价网页的指标进而成为评价网站的指标。