在前面都说了一些关于百度优化的问题,虽然本站主要研究百度搜索引擎排名,但是google 也是我们研究的重点对象,特别是在英文优化方面,所以不得不在这里说一些关于google优化的基础知识。首先就来说说pr及其算法吧。
先说一下,PR是google指定的一个网站等级的标志,PR从0-10,越高代表你的网站越能得到谷歌的认可。
PageRank及其相关算法
基于链接分析的排序算法中,最为著名的就是PageRank。所谓链接分析主要基于如下两个重要假设:
①超文本链接包含了用户对一个网站的判断信息;
②对一个网站而言,如果其他网站链接到该网站的入链数越多,该网站越重要。
以上假设在各种基于链接分析的算法中均以某种方式体现出来。
1.1 PageRank算法
PageRank算法是最早提出的链接分析算法之一,并被Google用于计算网页的重要性得分。其基本思想是:如果网页 T 存在一个指向网页 A的链接,则表明T的所有者认为A比较重要,从而把T的一部分重要性得分赋予A。 这个重要性得分的值则由 T 的PageRank值 PR(T)和T的出链(从T链出的链接)数C(T) 决定。具体公式为:PR(T) / C(T) 。而对于页面A, 其PageRank值 PR(A) 的计算如下:
PR(A)=PR(T 1)/C(T 1)+…+PR(T n)/C(T n)(1)
其中,T 1,T 2,…, T n为含有指向A链接的页面。
为了避免Link Sink(许多网页没有入链或出链)问题,对式(1)引入一个阻尼系数 d ,使其变为
PR(A)=(1-d)+d[PR(T 1)/C(T 1)+…+PR(T n)/C(T n)](2)
如此经过多次迭代,系统的PR值达到收敛。
PR 的计算公式可以从概率的角度解释为一个随机网络冲浪者随机选择一个网页后,不断地点击网页上的链接,但是从不返回;除非最后厌烦了才随机选择另一个页面。随机冲浪者访问某个页面的随机概率就是该页面的PageRank值;阻尼系数 d 就是随机冲浪者在某个页面会厌烦然后选择一个新页面的概率。页面的PageRank值越高,则随机冲浪者发现它的概率亦越高。这种思路非常富有创意。一个网页的外部链接越多,则对网络冲浪者来说,发现它的机会也就越大。
文献[2]结合近年来Web出现的一些新特性对PageRank提出了一些改进措施。文献[3]中对PageRank算法中的阻尼系数 d进行了深入讨论,从理论上分析了d 的取值不同对于PageRank算法效果的影响。文献[4]提出了一种方法用于对PageRank中的迭代计算进行加速。
PageRank的一个优势在于它是一个与查询无关的静态算法,因此所有网页的PageRank值均可以通过离线计算获得。这样有效地减少了在线查询时的运算量,极大地降低了查询响应时间。
然而Internet上的内容涵盖了众多主题,在现实应用中,人们的查询所希望得到的信息往往是具有某一方面主题特征的,而PageRank仅仅依靠计算网页的外部链接数量来决定该网页的排名,而忽略了页面的主题相关性,从而影响了搜索结果的相关性和准确性。
另一方面,PageRank算法对新网页有很严重的歧视性,因为一个新网页入链数量通常都很少,自然 PR 值很低。1.2 Topic Sensitive PageRank
由于Internet上的内容千差万别,涵盖众多不同的领域和主题。同样一个查询如“汽车”,可能用户1是想买一台汽车,他感兴趣的是汽车品牌、价格;而用户2是想参加与汽车相关的运动,他感兴趣的是与汽车相关的运动项目和赛事。因此要想给用户返回更为准确的查询信息就有必要基于不同的主题来对页面排序。最初的PageRank算法中是没有考虑主题相关因素的。主题敏感PageRank算法(Topic Sensitive PageRank,TSPR)[5]正是在这种背景下提出来的。
TSPR核心思想就是通过离线计算,计算出一个PageRank向量集合(在PageRank算法中,仅计算一个PageRank向量),该集合中的每一个向量与某一主题相关,即计算某个页面关于不同主题的得分。例如某个网页在教育这个主题的得分为 a,在体育这个主题的得分为b ,……。
具体来说,TSPR也可分为两个主要阶段:
(1)主题相关的PageRank向量集合的计算。
先将所有页面的内容划分为16个主题,根据Crawler搜集来的网页,计算该网页在不同主题的得分情况,即不同的PageRank向量。
(2)在线查询,主题的确定。
根据用户的查询请求和相关Context判断用户查询相关的主题(即用户的兴趣取向),从而提高返回结果的准确性无疑是一种有效的方法。
遗憾的是TSPR并没有利用主题的相关性来提高链接得分的准确性。事实上对于网页类别的划分可以更有效地计算链接的价值和权威性。例如评阅论文时,经常需要填写对相关领域的熟悉程度。也就是说,评阅者对论文所属的领域越熟悉,则评阅者所给出的评分越可信,从而在最后的计算中拥有更高的权重。
对于网页之间的链接分析与上述论文评阅的例子类似。可以把网页A指向网页B的链接视为A对B的评分;若A与B的内容是相近的,则A的评分更为可信。例如一个教育相关的网站A指向另一个教育相关的网站B,较一个娱乐相关的网站C指向教育相关的网站B更为权威、可信。
因此,可以将上述思想应用到PageRank的 PR 值计算中。这将在今后的研究工作中作进一步的考虑。