如何结合搜索引擎原理优化自身站内搜索?

搜索引擎的原理在我们之前的文章中也提到过,本质上搜索引擎实质上就是抓取、索引、排序的过程,那如何用简单的方法对站内搜索进行优化呢?

如何结合搜索引擎原理优化自身站内搜索?

抓取

爬虫抓取这一步基本上可以省略,因为我们站内数据已经存放在我们自身的数据库中了,那这一步还需要做什么?

去除杂质:这一操作主要是为搜索结果环境做初步筛选,对内容进行清洗,最终以统一的格式提交给索引程序来执行创建索引。

1、去除重复内容

2、去除低质量或违规内容(需要制定低质量标准或违规词典)

3、屏蔽不想参与搜索的内容

4、……

这个清洗的标准视个人需求而定,以上列举了三种比较常见的,具体还需要结合自身行业和实际情况制定清洗条件。

网页标题主题内容页面创建时间页面更新时间网页导入网页UV
WordID:[ title:江西湖州古茗奶茶总部在哪?品牌加盟只能来这里,content:古茗奶茶是近几年加盟的黑马......,time:2020-02-16 13:10:07,leading-in:32,uv:109 ]
如何结合搜索引擎原理优化自身站内搜索?

索引

1、做一个超简单的正排索引

正排索引这一步便是要对我们所有符合标准的信息进行初步索引处理,延续抓取索引格式对索引格式进行丰富,形成索引文件。

  • 内容分词(可借助分词工具)
  • 去停止词
  • 通过标题以及内容进行关键词提取并记录TF(词频)
  • 为关键词赋予ID

做完以上动作我们完成了一个简单的正排索引文件,形成以下形式: 

WordID:[ title:江西湖州古茗奶茶总部在哪?品牌加盟只能来这里,content:古茗奶茶是近几年加盟的黑马......,time:2020-02-16 13:10:07,leading-in:32,uv:109 ,keywords:1(id-TF)|2(id-TF)|3(id-TF)......,]

2、再做一个超简单的倒排索引

这一步我们需要把抓取提交过来的统一索引格式数据进行分存:

第一部分:记录关键词(id)和在多少文档中出现过。

第二部分:记录文档ID、关键字出现次数、文档发布时间,文档更新时间,网页被推荐数,文档uv。 

keywordID:[ id:2333,DF:15 ]
WordID:[ id:857,keywordID-tf:id-TF|id-TF|id-TF......, time:2020-02-16 13:10:07,leading-in:32,uv:109 ]

形成这样两部分之后我们的简单倒排就做完了,现在我们通过关键词已经能匹配到所有包含其关键词的所有文档了,这个时候我们就可以进入排序环节了。

如何结合搜索引擎原理优化自身站内搜索?

排序

到排序这一环节就简单多了,由于我们是做一个简单的所以考虑因素会相对较少一些,我们接下来会利用文档质量得分、文档发布时间、文档更新时间、网页获取推荐数量、文档本身uv这些参数来进行综合计算排序。

1、TF-IDF计算出我们的关键词得分;

2、发布时间与当前间隔得分(需要自定义一个评分标准);

3、更新时间与当前时间间隔得分(需要自定义一个评分标准);

4、根据当前内容被推荐次数计算得分(需要自定义一个评分标准);

5、根据页面被用户访问次数来计算得分(需要自定义一个评分标准);

最后我们再将这些得分综合计算用于排序,虽然我们的排序看似简单,但是基本上已经用到了搜索引擎比较有特点的一些算法和关注点,包括TF-IDF算法、时效性、简单的PageRank推荐算法以及一个简单的用户体验。

最后一步

最后也是最最重要的一步就是搜索词与关键词匹配,这里为方便大家理解,还是使用我们上一期相关搜索模型中的【分词+向量模型】技巧解决近义词问题。到这里一个简单的站内mini搜索引擎已经建立好了,当前如果要做出好的搜索引擎更是需要不断的测试、思考、迭代才能做得越来越好。

发布者:超威蓝猫,转转请注明出处:https://seowki.com/seo/baiduseo/4183.html

(1)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-13 22:26
下一篇 2022-04-17 20:24

相关推荐

  • TF-IDF中的TF和IDF分别是什么?如何计算?

    TF-IDF是向量空间模型中特征权重计算的一个重要环节,通俗的来讲就是搜索引擎需要对每一个收录索引的网页进行特征分析和对应的特征权重计算,具体体现为文档向量词和其对应的TF(词频)和IDF(逆文档频率)。 TF-IDF计算公式 1、TF词频因子计算的两种方式 ① wordTF=1+log(TF) ② WordTF=a+(1-a)x[TF/Max(TF)] 搜…

    2022-04-12
    22900
  • 搜素引擎是怎么判断采集的?采集还能否继续?

    首先我们先把问题深挖一下?问题本身就是一个误导,本质上搜索引擎并不是在判断采集,而是在判断内容的重复度以及内容的质量得分。只要把这一层想明白,问题就简单多了,而且还不会避免你的分析方向错误。 问题1:搜索引擎是否会根据我发布时间来判断我的内容是采集的? 仔细想一想这个问题本质上就是不成立的?假设我有一个站点每日发布内容10篇,每次间隔1小时,我组建了新的内容…

    2022-04-12
    21900
  • 通过竞争度分析进行阶段关键词布局——拓词实验室

    在SEO的核心工作中,关键词拓展和对应落地页规划工作占据了大量的精力,通常我们在安排关键词与对应落地页基本上都是依托于关键词搜索量、指数和经验判断,既然如此那我们是否能将这些再数据化一点。 关于竞争度 一般来说我们对竞争度的评估有: 关键词本身的搜索量; 关键词本身的竞争对手数量; 竞争对手的页面类型; 竞争对手的对应页链接支持及增加频次; 竞争对手主域的权…

    2022-06-11
    7100
  • 为什么抓取和收录都正常,但却没有排名?

    为什么抓取和收录都正常,但却没有排名?这个问题在SEO项目实操的时候很常见,而导致这种情况出现的原因也有很多,下面我们就把这些原因盘点一下: 发现问题本质 从搜索引擎工作原理来说,通常可以看作为三个体系,也就是我们常说的:抓取、排序;我们通过问题可以发现,收录以及抓取并没有问题,所以问题也就出现在了排序阶段。 影响排序的几种情况 内容质量 对于内容质量问题来…

    2022-06-14
    5600
  • 域名更换或URL改版如何将损失最小化

    在SEO项目实操的过程中通常会遇到网站需要更换域名或者程序更换导致的URL路径变更等问题,而这样的操作如果放任不管,对SEO来说就会造成大量的重复页面,降低对网站的信任度。 一、域名、URL变更或内容转移删除 URL路径变更 域名更换 内容删除 内容转移 1、301重定向跳转 在实际操作中遇到以上情况,我们最先应该操作的就是将原始地址进行301跳转至新的地址…

    2022-06-10
    6900

发表评论

您的电子邮箱地址不会被公开。

联系我

186-1297-5547

在线咨询: QQ交谈

邮件:1205221407@qq.com

工作时间:周一至周五,9:30-17:30,节假日休息

关注微信