TF-IDF中的TF和IDF分别是什么?如何计算?

TF-IDF是向量空间模型中特征权重计算的一个重要环节,通俗的来讲就是搜索引擎需要对每一个收录索引的网页进行特征分析和对应的特征权重计算,具体体现为文档向量词和其对应的TF(词频)和IDF(逆文档频率)。

TF-IDF是向量空间模型中特征权重计算的一个重要环节,通俗的来讲就是搜索引擎需要对每一个收录索引的网页进行特征分析和对应的特征权重计算,具体体现为文档向量词和其对应的TF(词频)和IDF(逆文档频率)。

TF-IDF计算公式

1、TF词频因子计算的两种方式

① wordTF=1+log(TF)
② WordTF=a+(1-a)x[TF/Max(TF)]
47ab7425-4970-4aad-9429-d01c5bb14075
搜索引擎认为,在一个文档中某一词的TF值越高,则越能代表文档反应的主题内容,也就越应该给该词较大的权值。
公式①
假设某单词在文档中出现4次,那么其词频因子权值就是3(公式中的1是为了避免如果出现某词在文档中仅出现一次计算返回权值为0的情况,同时也抑制词频超过10次与1次的倍数差距过大问题);
公式②
公式①相比公式②可以算作为增强型规范化TF,其中的a是为了调节因子,过去经验取值为0.5,最新的研究表明取值为0.4效果更好,公式中的TF代表被计算词的实际词频数量,而Max(TF)则代表当前文档内词频最高的词所对应的实际词频数量,之所以如此计算是为了平衡短文档与长文档之前因文档长度所导致的计算差距,通俗来讲长文档不代表就是最符合用户需求的那个,当然短文档不能因为其短就不能解决用户需求;
总结:
对SEO而言,我们现在得知了以下两个结果:
  • 大量刻意增加词频是无效的;
  • 文章的篇幅长短并不能强化你的最终词频权值;

2、IDF逆文档频率因子计算公式

IDFk=log(N/nk)
f0144f26-a8b7-4efe-ba25-344782edf77c
文档中的的N代表文档合集中总共有多少个文档,nk则代表特征单词K在其中多少篇文档出现过,也就是我们通常说的文档频率。从公式中我们能看出nk值越大,IDF值就越小,IDF值代表了单词带有的信息量有多少,IDF值得高低代表信息越有价值,可以把他通俗的理解成:物以稀为贵。
 
总结:
对SEO而言,我们可以思考一个问题,文档集(不清楚文档集概念的可以查看下:什么是倒排索引,正向索引和倒排索引的区别是什么?)我们不可控制,那我们能否从拓词的时候选好要做的核心词,从而达成控制IDF所得的权值?
 

3、TF*IDF框架计算公式

weightword1=TF*IDF
98443a04-cd1a-4c6a-bdfd-659524a8e546
从以上公式我们可以看出最终我们要计算word1中某词的特征权重就是要将该词的TF权值与IDF值相乘计算,对于word1来说:
  • 计算词的词频很低,其在文档集中出现的次数较多,那他的特征权重就很低。
  • 计算词的词频很高,其在文档集中出现的次数较少,那他的特征权重就很高。
  • 计算词的词频很高,其在文档集中出现的次数较多;或者词频很低,文档集中出现的次数也较少,那这个词的特征权重值就一般。
 
结合上面的所有公式和分析可以肯定在选词上我们选择合理的潜力词可以提升我们优化词的特征权重值,词频可以布局过多其实意义并不大,正常来说我们在讲述一个主题时对主题的描述肯定是大于拓展的,所以其核心词频也就相对较高,也较为合理;反之如果为增强关键词词频增加大量词频不仅费脑耗时还有可能影响到主题集中,拓展内容喧宾夺主,这也就是为什么很多文章内容页会出现seo预料之外的其他索引词效果比优化词好的情况。
005
关注我,一天一个SEO知识点,让我们从0开始认识搜索引擎。

本文来自投稿,不代表SEOwiki立场,如若转载,请注明出处:https://seowki.com/archives/2183.html

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注