PageRank算法原理是什么?具体如何计算?

PageRank算法是网页排名的要素之一,早在PageRank算法提出之前,已经有研究者提出利用网页的入链数量来评估页面重要程度,PageRank算法的核心也正是基于这种“让链接来“投票”的核心思想出现,也就是一个页面的重要程度是由给它投票的网页数量+质量来进行链接得分分析。

PageRank算法是网页排名的要素之一,早在PageRank算法提出之前,已经有研究者提出利用网页的入链数量来评估页面重要程度,PageRank算法的核心也正是基于这种“让链接来“投票”的核心思想出现,也就是一个页面的重要程度是由给它投票的网页数量+质量来进行链接得分分析。

PageRank算法核心

83665515-a699-4bec-ba24-ed1ab58333c7

1、数量假设

如果一个网页收到其他网页的指向入链数量越多,那么这个页面也就越重要。

2、质量假设

在众多的入链指向中,质量越高的页面指向也会传递更多权重,所以越高质量的页面指向该页面,那么该页面的质量就越高。
PageRank的算法核心便是综合以上两个假设给出每个页面相同的初始页面分值,通过迭代递归计算来更新每个页面的得分,直至稳定。
 
PageRank计算公式
93d60fbf-7542-466f-87e0-79bd29460868
  • Mpi是有出链到pi的所有网页集合
  • L(pj)是有网页pj的出链总数
  • N是网页总数
  • α一般取值为0.85,又称为阻尼系数
假设每个页面的初始得分随着每一轮的计算更新新的得分,那么合理的增加高质量入链便是提升页面质量的有效方法。
 

阻尼系数&远程跳转

6a7abf61-c54b-4ff0-96d6-e5eaeb042265

1、阻尼系数

2005年初,Google为网页链接推出一项新属性nofollow,使得网站管理员和网站作者可以做出一些Google不计票的链接,也就是说这些链接不算作”投票”。nofollow的设置可以抵制评论垃圾。
假设一个由4个页面组成的小团体:A,B,C和D。如果所有页面都链向A,那么A的PR(PageRank)值将是B,C及D的Pagerank总和。
0.8560687814395946
继续假设B也有链接到C,并且D也有链接到包括A的3个页面。一个页面不能投票2次。所以B给每个页面半票。以同样的逻辑,D投出的票只有三分之一算到了A的PageRank上。
0.028091736995413737
换句话说,根据链出总数平分一个页面的PR值。
0.2101229530320998
最后,所有这些被换算为一个百分比再乘上一个系数。由于“没有向外链接的页面”传递出去的PageRank会是0,所以,Google通过数学系统给了每个页面一个最小值:
0.04864312287878745

2、远程跳转

在部分参考资料及文献中,为阻止单页面链接关系形成闭环无限增大的问题,提出传递过程中不限于向出链传递,也可以一定概率向任意其他网页传递的方式来规避这个问题,当然这一方式仅仅只是在部分文献中提到过,我们逻辑上也可能存在问题,可以暂做了解不必深入。
4e7d145f0ded73dfc9b7e7883464a681
当然搜索引擎关于排名计算的方式不单单只依靠一个PageRank算法或者其他,我们也不能一味的通过一项算法寻求高效突破,只有全面了解综合考虑实施策略才是比较好的方式,一天一个SEO知识点,让我们从0开始重新认识搜索引擎。

本文来自投稿,不代表SEOwiki立场,如若转载,请注明出处:https://seowki.com/archives/2167.html

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注