TF-IDF中的TF和IDF分别是什么?如何计算?

TF-IDF是向量空间模型中特征权重计算的一个重要环节,通俗的来讲就是搜索引擎需要对每一个收录索引的网页进行特征分析和对应的特征权重计算,具体体现为文档向量词和其对应的TF(词频)和IDF(逆文档频率)。

TF-IDF计算公式

1、TF词频因子计算的两种方式

① wordTF=1+log(TF)

② WordTF=a+(1-a)x[TF/Max(TF)]

TF-IDF中的TF和IDF分别是什么?如何计算?

搜索引擎认为,在一个文档中某一词的TF值越高,则越能代表文档反应的主题内容,也就越应该给该词较大的权值。公式①假设某单词在文档中出现4次,那么其词频因子权值就是3(公式中的1是为了避免如果出现某词在文档中仅出现一次计算返回权值为0的情况,同时也抑制词频超过10次与1次的倍数差距过大问题);公式②公式①相比公式②可以算作为增强型规范化TF,其中的a是为了调节因子,过去经验取值为0.5,最新的研究表明取值为0.4效果更好,公式中的TF代表被计算词的实际词频数量,而Max(TF)则代表当前文档内词频最高的词所对应的实际词频数量,之所以如此计算是为了平衡短文档与长文档之前因文档长度所导致的计算差距,通俗来讲长文档不代表就是最符合用户需求的那个,当然短文档不能因为其短就不能解决用户需求;
总结:
对SEO而言,我们现在得知了以下两个结果:

  • 大量刻意增加词频是无效的;
  • 文章的篇幅长短并不能强化你的最终词频权值;

2、IDF逆文档频率因子计算公式

IDFk=log(N/nk)文档中的的N代表文档合集中总共有多少个文档,nk则代表特征单词K在其中多少篇文档出现过,也就是我们通常说的文档频率。从公式中我们能看出nk值越大,IDF值就越小,IDF值代表了单词带有的信息量有多少,IDF值得高低代表信息越有价值,可以把他通俗的理解成:物以稀为贵。
总结:
对SEO而言,我们可以思考一个问题,文档集(不清楚文档集概念的可以查看下:什么是倒排索引,正向索引和倒排索引的区别是什么?)我们不可控制,那我们能否从拓词的时候选好要做的核心词,从而达成控制IDF所得的权值?

3、TF*IDF框架计算公式

weightword1=TF*IDF

TF-IDF中的TF和IDF分别是什么?如何计算?

从以上公式我们可以看出最终我们要计算word1中某词的特征权重就是要将该词的TF权值与IDF值相乘计算,对于word1来说:

  • 计算词的词频很低,其在文档集中出现的次数较多,那他的特征权重就很低。
  • 计算词的词频很高,其在文档集中出现的次数较少,那他的特征权重就很高。
  • 计算词的词频很高,其在文档集中出现的次数较多;或者词频很低,文档集中出现的次数也较少,那这个词的特征权重值就一般。

结合上面的所有公式和分析可以肯定在选词上我们选择合理的潜力词可以提升我们优化词的特征权重值,词频可以布局过多其实意义并不大,正常来说我们在讲述一个主题时对主题的描述肯定是大于拓展的,所以其核心词频也就相对较高,也较为合理;反之如果为增强关键词词频增加大量词频不仅费脑耗时还有可能影响到主题集中,拓展内容喧宾夺主,这也就是为什么很多文章内容页会出现seo预料之外的其他索引词效果比优化词好的情况。

TF-IDF中的TF和IDF分别是什么?如何计算?

发布者:超威蓝猫,转转请注明出处:https://seowki.com/seo/baiduseo/4152.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-12 13:17
下一篇 2022-04-12 13:27

相关推荐

  • 正确培养蜘蛛爬行习惯,提升蜘蛛抓取效率

    搜索引擎蜘蛛在对网站进行抓取的过程中会对网站更新频率进行监控参考,从而对下次抓取时间进行合理安排,这样的策略可以有效提升搜索引擎Spider爬行效率,避免不必要的资源浪费; 而对SEO来说,培养蜘蛛良好的抓取习惯更是能够帮助模块获取稳定排名维护的重要策略,那如何才能培养蜘蛛正确的抓取习惯? 1、页面时间因子添加 众所周知,搜索引擎在没有任何辅助条件的情况下来…

    2022-06-08
    26800
  • 域名更换或URL改版如何将损失最小化

    在SEO项目实操的过程中通常会遇到网站需要更换域名或者程序更换导致的URL路径变更等问题,而这样的操作如果放任不管,对SEO来说就会造成大量的重复页面,降低对网站的信任度。 一、域名、URL变更或内容转移删除 URL路径变更 域名更换 内容删除 内容转移 1、301重定向跳转 在实际操作中遇到以上情况,我们最先应该操作的就是将原始地址进行301跳转至新的地址…

    2022-06-10
    22100
  • 搜素引擎是怎么判断采集的?采集还能否继续?

    首先我们先把问题深挖一下?问题本身就是一个误导,本质上搜索引擎并不是在判断采集,而是在判断内容的重复度以及内容的质量得分。只要把这一层想明白,问题就简单多了,而且还不会避免你的分析方向错误。 问题1:搜索引擎是否会根据我发布时间来判断我的内容是采集的? 仔细想一想这个问题本质上就是不成立的?假设我有一个站点每日发布内容10篇,每次间隔1小时,我组建了新的内容…

    2022-04-12
    36100
  • 怎么形成有效的外链建设策略?都需要关注哪些点?

    使用外链建设的方式来提升网站权重促进排名获取,在这个过程中,由于有很多seoer由于对链接建设理解太过表面,导致对链接策略忽冷忽热、无计划的进行,最终导致效果一般或者没有效果,那如何才能形成有效的外链建设策略呢? 外链建设的重要性 我们曾经SEO有效策略一文中提到过链接流行度的重要性,而衡量链接流行度与PageRank算法由是网页排序算法中的核心算法策略,这…

    2022-06-01
    22500
  • SEO运营策略中必不可少的四个要点

    SEO运营策略是每个SEOer着手项目都必须要思考的,大到百万级的流量站和平台站,小到企业站或博客站都需要一套SEO运营策略,如果你没有一套运营策略那你的优化就会变的没有重点或者看什么都是重点,所以要清楚我们什么时候该干什么就是策略的核心了。 一、了解网站定位建立词库与产品结构 首先第一步还是便是要搞清楚的所负责项目的三个问题: 项目的定位是什么? 产品靠什…

    2022-06-06
    29100

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我

186-1297-5547

在线咨询: QQ交谈

邮件:1205221407@qq.com

工作时间:周一至周五,9:30-17:30,节假日休息

关注微信