如何结合搜索引擎原理优化自身站内搜索?

搜索引擎的原理在我们之前的文章中也提到过,本质上搜索引擎实质上就是抓取、索引、排序的过程,那如何用简单的方法对站内搜索进行优化呢?

如何结合搜索引擎原理优化自身站内搜索?

抓取

爬虫抓取这一步基本上可以省略,因为我们站内数据已经存放在我们自身的数据库中了,那这一步还需要做什么?

去除杂质:这一操作主要是为搜索结果环境做初步筛选,对内容进行清洗,最终以统一的格式提交给索引程序来执行创建索引。

1、去除重复内容

2、去除低质量或违规内容(需要制定低质量标准或违规词典)

3、屏蔽不想参与搜索的内容

4、……

这个清洗的标准视个人需求而定,以上列举了三种比较常见的,具体还需要结合自身行业和实际情况制定清洗条件。

网页标题主题内容页面创建时间页面更新时间网页导入网页UV
WordID:[ title:江西湖州古茗奶茶总部在哪?品牌加盟只能来这里,content:古茗奶茶是近几年加盟的黑马......,time:2020-02-16 13:10:07,leading-in:32,uv:109 ]
如何结合搜索引擎原理优化自身站内搜索?

索引

1、做一个超简单的正排索引

正排索引这一步便是要对我们所有符合标准的信息进行初步索引处理,延续抓取索引格式对索引格式进行丰富,形成索引文件。

  • 内容分词(可借助分词工具)
  • 去停止词
  • 通过标题以及内容进行关键词提取并记录TF(词频)
  • 为关键词赋予ID

做完以上动作我们完成了一个简单的正排索引文件,形成以下形式: 

WordID:[ title:江西湖州古茗奶茶总部在哪?品牌加盟只能来这里,content:古茗奶茶是近几年加盟的黑马......,time:2020-02-16 13:10:07,leading-in:32,uv:109 ,keywords:1(id-TF)|2(id-TF)|3(id-TF)......,]

2、再做一个超简单的倒排索引

这一步我们需要把抓取提交过来的统一索引格式数据进行分存:

第一部分:记录关键词(id)和在多少文档中出现过。

第二部分:记录文档ID、关键字出现次数、文档发布时间,文档更新时间,网页被推荐数,文档uv。 

keywordID:[ id:2333,DF:15 ]
WordID:[ id:857,keywordID-tf:id-TF|id-TF|id-TF......, time:2020-02-16 13:10:07,leading-in:32,uv:109 ]

形成这样两部分之后我们的简单倒排就做完了,现在我们通过关键词已经能匹配到所有包含其关键词的所有文档了,这个时候我们就可以进入排序环节了。

如何结合搜索引擎原理优化自身站内搜索?

排序

到排序这一环节就简单多了,由于我们是做一个简单的所以考虑因素会相对较少一些,我们接下来会利用文档质量得分、文档发布时间、文档更新时间、网页获取推荐数量、文档本身uv这些参数来进行综合计算排序。

1、TF-IDF计算出我们的关键词得分;

2、发布时间与当前间隔得分(需要自定义一个评分标准);

3、更新时间与当前时间间隔得分(需要自定义一个评分标准);

4、根据当前内容被推荐次数计算得分(需要自定义一个评分标准);

5、根据页面被用户访问次数来计算得分(需要自定义一个评分标准);

最后我们再将这些得分综合计算用于排序,虽然我们的排序看似简单,但是基本上已经用到了搜索引擎比较有特点的一些算法和关注点,包括TF-IDF算法、时效性、简单的PageRank推荐算法以及一个简单的用户体验。

最后一步

最后也是最最重要的一步就是搜索词与关键词匹配,这里为方便大家理解,还是使用我们上一期相关搜索模型中的【分词+向量模型】技巧解决近义词问题。到这里一个简单的站内mini搜索引擎已经建立好了,当前如果要做出好的搜索引擎更是需要不断的测试、思考、迭代才能做得越来越好。

发布者:超威蓝猫,转转请注明出处:https://seowki.com/seo/baiduseo/4183.html

(1)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-13 22:26
下一篇 2022-04-17 20:24

相关推荐

  • 网站不收录的原因有哪些?该如何分析解决?

    说到网站不收录的原因,就不得不提到搜索引擎对海量内容抓取的工作流程,而搜索引擎对内容的抓取其实可以简单理解为:发现——爬取——评估最后收录等步骤,当我们遇到不收录的情况就应该对应进行排查,这里也就用到了结构化思维。 一、排查发现问题 SEO促进搜索引擎抓取的途径基本上可以分为三个方面: 1、站长平台绑定主动提交; 2、内外链建设; 3、URL层级太深; 第一…

    2022-06-09
    24900
  • 什么是长尾关键词?长尾关键词有哪些特征?

    什么是长尾关键词? 长尾关键词(Long Tail Keyword)是指网站上的非目标关键词但与目标关键词相关的也可以带来搜索流量的组合型关键词。这是百度百科对长尾词的解释,通俗的来讲我们将持续不断有搜索量但搜索量不大的词定义为长尾关键词。 长尾关键词的特点是什么? 关键词长度较长 搜索意图明确 搜索次数较少 累计搜索总量较大 我们来举一个案例,例如搜索:“…

    2022-04-20
    37200
  • 搜索引擎的HITS算法原理是什么?我们应该如何优化?

    HITS是一个网页重要性的分析的算法,其目的是为了让用户能快速找到与查询主题相关的高质量页面,那他的算法原理和工作原理是什么? HITS算法工作原理 如图所示,我们在实践中不难发现,单纯依靠PageRank算法返回排序的网页其相关性无法保证,这样便会导致搜索环境差的结果,HITS算法其本质就是兼顾领域高质量入链(Hub)的同时兼顾入链页面的相关性(Autbo…

    2022-04-12
    47000
  • 搜索引擎如何进行相似性分析?

    提到相似性计算就不得不先从搜索引擎检索和排序说起了,注意这里说到的是检索而不是我们之前提到的索引,SEO在优化过程中不仅仅只是要做好前期的收录和索引优化,排序方面的算法和原理也是我们需要关注的重点。 相似性分析 简单来讲,搜索引擎相似性分析是基于向量空间模型的一种算法,其中环节有:1、文档表示;2、相似性计算;特征权重计算,相似性计算在其中也是非常重要的一环…

    2022-04-12
    36100
  • 域名更换或URL改版如何将损失最小化

    在SEO项目实操的过程中通常会遇到网站需要更换域名或者程序更换导致的URL路径变更等问题,而这样的操作如果放任不管,对SEO来说就会造成大量的重复页面,降低对网站的信任度。 一、域名、URL变更或内容转移删除 URL路径变更 域名更换 内容删除 内容转移 1、301重定向跳转 在实际操作中遇到以上情况,我们最先应该操作的就是将原始地址进行301跳转至新的地址…

    2022-06-10
    22100

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我

186-1297-5547

在线咨询: QQ交谈

邮件:1205221407@qq.com

工作时间:周一至周五,9:30-17:30,节假日休息

关注微信