什么是倒排索引,正向索引和倒排索引的区别是什么?

SEO对倒排索引这个词并不陌生,但倒排索引的原理和索引结构具体是什么?索引的本质是在解决什么问题?为什么要用倒排索引?这一系列问题你会在阅读完本篇文章后有比较清楚的答案。

索引是什么?

什么是倒排索引,正向索引和倒排索引的区别是什么?

如脑图所示,索引的存在便是为了解决将互联网海量信息进行分类,以一种合理的方式形成索引结构,让用户快速找到有价值的信息,索引结构在我们生活中也非常常见,比如一本书的目录、浏览器的导航页面等等。

什么是正向索引?

当用户搜索某个关键词时,扫描索引库中包含该关键词的所有文档,再根据综合算法打分进行排序最终展现,这就是——正向索引,通过文档找词。

“文档1”的ID > 单词1:出现次数,出现位置列表;单词2:出现次数,出现位置列表;…………。

“文档2”的ID > 此文档出现的关键词列表。

什么是倒排索引,正向索引和倒排索引的区别是什么?

什么是倒排索引?

由于正向索引无法满足互联网海量的信息实时返回排名结果需求,所以便将正向索引的内容重新排序,把文件ID对应到关键词的映射转换为关键词到文件ID的映射,每个关键词都对应着一系列的文件这便是——倒排索引,通过词找文档。形成倒排索引表之后以字或词为关键字进行索引,表中关键字所对应的记录表项记录了出现这个字或词的所有文档,一个表项就是一个字表段,它记录该文档的ID和字符在该文档中出现的位置情况。

       “关键词1”:“文档1”的ID,“文档2”的ID,…………。

       “关键词2”:带有此关键词的文档ID列表。

什么是倒排索引,正向索引和倒排索引的区别是什么?

上述脑图简单将倒排索引的单词文档矩阵和结构进行了举例展示,可以看到倒排索引结构上与正向索引相反,其实用性更强,充分解决了正向索引存在的短板问题,我们来详细来代入实际案例中看下面的案例图:

什么是倒排索引,正向索引和倒排索引的区别是什么?
什么是倒排索引,正向索引和倒排索引的区别是什么?
什么是倒排索引,正向索引和倒排索引的区别是什么?

单词ID:记录每个单词的单词编号;
单词:对应的单词;
文档频率:代表文档集合中有多少个文档包含某个单词
倒排列表:包含单词ID及其他必要信息
DocId:单词出现的文档id
TF:单词在某个文档中出现的次数
POS:单词在文档中出现的位置

倒排索引基本概念(摘自《这就是搜索引擎》)

什么是倒排索引,正向索引和倒排索引的区别是什么?


文档(Document):
一般搜索引擎的处理对象是互联网网页,而文档这个概念要更宽泛些,代表以文本形式存在的存储对象,相比网页来说,涵盖更多种形式,比如Word,PDF,html,XML等不同格式的文件都可以称之为文档。再比如一封邮件,一条短信,一条微博也可以称之为文档。

文档集合(Document Collection):由若干文档构成的集合称之为文档集合。比如海量的互联网网页或者说大量的电子邮件都是文档集合的具体例子。

文档编号(Document ID):在搜索引擎内部,会将文档集合内每个文档赋予一个唯一的内部编号,以此编号来作为这个文档的唯一标识,这样方便内部处理,每个文档的内部编号即称之为“文档编号”,后文有时会用DocID来便捷地代表文档编号。

单词编号(Word ID):与文档编号类似,搜索引擎内部以唯一的编号来表征某个单词,单词编号可以作为某个单词的唯一表征。

倒排索引(Inverted Index):倒排索引是实现“单词-文档矩阵”的一种具体存储形式,通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成:“单词词典”和“倒排文件”。

单词词典(Lexicon):搜索引擎的通常索引单位是单词,单词词典是由文档集合中出现过的所有单词构成的字符串集合,单词词典内每条索引项记载单词本身的一些信息以及指向“倒排列表”的指针。

倒排列表(PostingList):倒排列表记载了出现过某个单词的所有文档的文档列表及单词在该文档中出现的位置信息,每条记录称为一个倒排项(Posting)。根据倒排列表,即可获知哪些文档包含某个单词。

倒排文件(Inverted File):所有单词的倒排列表往往顺序地存储在磁盘的某个文件里,这个文件即被称之为倒排文件,倒排文件是存储倒排索引的物理文件。
完整脑图

发布者:超威蓝猫,转转请注明出处:https://seowki.com/seo/baiduseo/4118.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-11 19:35
下一篇 2022-04-11 22:14

相关推荐

  • 如何挖掘长尾关键词?具体有哪些步骤?

    很多网站在优化初期都会面临同一个问题,如何找到合适的关键词,以及长尾关键词?而这一问题在seo的优化中更是占了相当大的重要比重,那找这些词的思路和方法有哪些呢? 种子词挖掘的思路 将种子词挖掘的思路分为两部分,区分强相关与若相关,具体两部分的执行还需要根据自身精力以及人员配置考虑。 业务本身维度,强相关 产品品类 品牌 用途 材质 场景 业务相关维度,弱相关…

    2022-04-29
    16610
  • 通过竞争度分析进行阶段关键词布局——拓词实验室

    在SEO的核心工作中,关键词拓展和对应落地页规划工作占据了大量的精力,通常我们在安排关键词与对应落地页基本上都是依托于关键词搜索量、指数和经验判断,既然如此那我们是否能将这些再数据化一点。 关于竞争度 一般来说我们对竞争度的评估有: 关键词本身的搜索量; 关键词本身的竞争对手数量; 竞争对手的页面类型; 竞争对手的对应页链接支持及增加频次; 竞争对手主域的权…

    2022-06-11
    7100
  • 怎么形成有效的外链建设策略?都需要关注哪些点?

    使用外链建设的方式来提升网站权重促进排名获取,在这个过程中,由于有很多seoer由于对链接建设理解太过表面,导致对链接策略忽冷忽热、无计划的进行,最终导致效果一般或者没有效果,那如何才能形成有效的外链建设策略呢? 外链建设的重要性 我们曾经SEO有效策略一文中提到过链接流行度的重要性,而衡量链接流行度与PageRank算法由是网页排序算法中的核心算法策略,这…

    2022-06-01
    8800
  • 内容聚合页优化的基本要点有哪些?

    聚合页是seo策略中排名较为稳定的页面之一,通常由大量底层数据聚合构成,例如:文章、图片、问答…….而聚合页在选词和聚合上也有一些需要注意的点,如果这些问题不考虑清楚,你的聚合页就并没有实质性价值,获取排名的机会和稳定性也会很差。 关键词本身的合理性 在SEO的策略中,通常会将一些竞争较大、优化难度较高的词选用聚合页去做,但有些词本质…

    2022-06-13
    6500
  • 如何结合搜索引擎原理优化自身站内搜索?

    搜索引擎的原理在我们之前的文章中也提到过,本质上搜索引擎实质上就是抓取、索引、排序的过程,那如何用简单的方法对站内搜索进行优化呢? 抓取 爬虫抓取这一步基本上可以省略,因为我们站内数据已经存放在我们自身的数据库中了,那这一步还需要做什么? 去除杂质:这一操作主要是为搜索结果环境做初步筛选,对内容进行清洗,最终以统一的格式提交给索引程序来执行创建索引。 1、去…

    2022-04-14
    29300

发表评论

您的电子邮箱地址不会被公开。

评论列表(1条)

联系我

186-1297-5547

在线咨询: QQ交谈

邮件:1205221407@qq.com

工作时间:周一至周五,9:30-17:30,节假日休息

关注微信