TF-IDF中的TF和IDF分别是什么?如何计算?

TF-IDF是向量空间模型中特征权重计算的一个重要环节,通俗的来讲就是搜索引擎需要对每一个收录索引的网页进行特征分析和对应的特征权重计算,具体体现为文档向量词和其对应的TF(词频)和IDF(逆文档频率)。

TF-IDF计算公式

1、TF词频因子计算的两种方式

① wordTF=1+log(TF)

② WordTF=a+(1-a)x[TF/Max(TF)]

TF-IDF中的TF和IDF分别是什么?如何计算?

搜索引擎认为,在一个文档中某一词的TF值越高,则越能代表文档反应的主题内容,也就越应该给该词较大的权值。公式①假设某单词在文档中出现4次,那么其词频因子权值就是3(公式中的1是为了避免如果出现某词在文档中仅出现一次计算返回权值为0的情况,同时也抑制词频超过10次与1次的倍数差距过大问题);公式②公式①相比公式②可以算作为增强型规范化TF,其中的a是为了调节因子,过去经验取值为0.5,最新的研究表明取值为0.4效果更好,公式中的TF代表被计算词的实际词频数量,而Max(TF)则代表当前文档内词频最高的词所对应的实际词频数量,之所以如此计算是为了平衡短文档与长文档之前因文档长度所导致的计算差距,通俗来讲长文档不代表就是最符合用户需求的那个,当然短文档不能因为其短就不能解决用户需求;
总结:
对SEO而言,我们现在得知了以下两个结果:

  • 大量刻意增加词频是无效的;
  • 文章的篇幅长短并不能强化你的最终词频权值;

2、IDF逆文档频率因子计算公式

IDFk=log(N/nk)文档中的的N代表文档合集中总共有多少个文档,nk则代表特征单词K在其中多少篇文档出现过,也就是我们通常说的文档频率。从公式中我们能看出nk值越大,IDF值就越小,IDF值代表了单词带有的信息量有多少,IDF值得高低代表信息越有价值,可以把他通俗的理解成:物以稀为贵。
总结:
对SEO而言,我们可以思考一个问题,文档集(不清楚文档集概念的可以查看下:什么是倒排索引,正向索引和倒排索引的区别是什么?)我们不可控制,那我们能否从拓词的时候选好要做的核心词,从而达成控制IDF所得的权值?

3、TF*IDF框架计算公式

weightword1=TF*IDF

TF-IDF中的TF和IDF分别是什么?如何计算?

从以上公式我们可以看出最终我们要计算word1中某词的特征权重就是要将该词的TF权值与IDF值相乘计算,对于word1来说:

  • 计算词的词频很低,其在文档集中出现的次数较多,那他的特征权重就很低。
  • 计算词的词频很高,其在文档集中出现的次数较少,那他的特征权重就很高。
  • 计算词的词频很高,其在文档集中出现的次数较多;或者词频很低,文档集中出现的次数也较少,那这个词的特征权重值就一般。

结合上面的所有公式和分析可以肯定在选词上我们选择合理的潜力词可以提升我们优化词的特征权重值,词频可以布局过多其实意义并不大,正常来说我们在讲述一个主题时对主题的描述肯定是大于拓展的,所以其核心词频也就相对较高,也较为合理;反之如果为增强关键词词频增加大量词频不仅费脑耗时还有可能影响到主题集中,拓展内容喧宾夺主,这也就是为什么很多文章内容页会出现seo预料之外的其他索引词效果比优化词好的情况。

TF-IDF中的TF和IDF分别是什么?如何计算?

发布者:超威蓝猫,转转请注明出处:https://seowki.com/seo/baiduseo/4152.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-12 13:17
下一篇 2022-04-12 13:27

相关推荐

  • 为什么抓取和收录都正常,但却没有排名?

    为什么抓取和收录都正常,但却没有排名?这个问题在SEO项目实操的时候很常见,而导致这种情况出现的原因也有很多,下面我们就把这些原因盘点一下: 发现问题本质 从搜索引擎工作原理来说,通常可以看作为三个体系,也就是我们常说的:抓取、排序;我们通过问题可以发现,收录以及抓取并没有问题,所以问题也就出现在了排序阶段。 影响排序的几种情况 内容质量 对于内容质量问题来…

    2022-06-14
    5700
  • 内容聚合页优化的基本要点有哪些?

    聚合页是seo策略中排名较为稳定的页面之一,通常由大量底层数据聚合构成,例如:文章、图片、问答…….而聚合页在选词和聚合上也有一些需要注意的点,如果这些问题不考虑清楚,你的聚合页就并没有实质性价值,获取排名的机会和稳定性也会很差。 关键词本身的合理性 在SEO的策略中,通常会将一些竞争较大、优化难度较高的词选用聚合页去做,但有些词本质…

    2022-06-13
    6500
  • 如何建立一个简单的相关搜索模型?

    相关搜索是什么? 以百度为例,相关搜索就是对当前搜索结果页的一种相关推荐,如图是我对【视频压缩】关键词的搜索结果及相关搜索词展现。 相关搜索有什么作用? 场景一般为:用户对当前页面展示内容不满足。当你通过一个关键词无法找到你想要的东西的时候,相关搜索很可能能帮到你,和搜索提示不同,搜索提示主要用的前缀匹配的模式,关注的是你还没有点击搜索键的时候猜测你想搜什么…

    2022-04-13
    22800
  • 如何利用链接分析算法对相关推荐做优化?

    说到站内推荐就不得不从根源上先了解一下站内推荐在解决什么样的问题?本质上他是一项网站运营者与用户互动的过程,那我们就可以从这两个角度去分析。 相关推荐的目的 作为用户我想看什么? 相关内容 热点内容 时效性好的内容 作为运营者我可以推荐给用户看什么? 转化内容 优化内链 多样化内容 那么我们通过什么样的推荐规则和方式才能将用户和运营者所关注的问题解决呢?通常…

    2022-04-17
    21700
  • 常见的搜索引擎优化作弊手法有哪些?如何避免被误判?

    从普通的关键词密度重复作弊,或者钻搜索排序算法漏洞的黑帽操作手法,作为seo肯定都有一定的了解,本质上seo是没有黑帽以及白帽的分别,从往期我们文章内容不难看出,搜索引擎是希望可以将更符合用户体验的优质内容呈现给用户,对应我们做搜索引擎优化便是将自身的网页优化成符合用户体验的优质内容也是我们的初心,但机器毕竟是机器,算法毕竟是算法,总归还是可以找到可钻的漏洞…

    2022-04-12
    23300

发表评论

您的电子邮箱地址不会被公开。

联系我

186-1297-5547

在线咨询: QQ交谈

邮件:1205221407@qq.com

工作时间:周一至周五,9:30-17:30,节假日休息

关注微信