如何结合搜索引擎原理优化自身站内搜索?

搜索引擎的原理在我们之前的文章中也提到过,本质上搜索引擎实质上就是抓取、索引、排序的过程,那如何用简单的方法对站内搜索进行优化呢?

如何结合搜索引擎原理优化自身站内搜索?

抓取

爬虫抓取这一步基本上可以省略,因为我们站内数据已经存放在我们自身的数据库中了,那这一步还需要做什么?

去除杂质:这一操作主要是为搜索结果环境做初步筛选,对内容进行清洗,最终以统一的格式提交给索引程序来执行创建索引。

1、去除重复内容

2、去除低质量或违规内容(需要制定低质量标准或违规词典)

3、屏蔽不想参与搜索的内容

4、……

这个清洗的标准视个人需求而定,以上列举了三种比较常见的,具体还需要结合自身行业和实际情况制定清洗条件。

网页标题主题内容页面创建时间页面更新时间网页导入网页UV
WordID:[ title:江西湖州古茗奶茶总部在哪?品牌加盟只能来这里,content:古茗奶茶是近几年加盟的黑马......,time:2020-02-16 13:10:07,leading-in:32,uv:109 ]
如何结合搜索引擎原理优化自身站内搜索?

索引

1、做一个超简单的正排索引

正排索引这一步便是要对我们所有符合标准的信息进行初步索引处理,延续抓取索引格式对索引格式进行丰富,形成索引文件。

  • 内容分词(可借助分词工具)
  • 去停止词
  • 通过标题以及内容进行关键词提取并记录TF(词频)
  • 为关键词赋予ID

做完以上动作我们完成了一个简单的正排索引文件,形成以下形式: 

WordID:[ title:江西湖州古茗奶茶总部在哪?品牌加盟只能来这里,content:古茗奶茶是近几年加盟的黑马......,time:2020-02-16 13:10:07,leading-in:32,uv:109 ,keywords:1(id-TF)|2(id-TF)|3(id-TF)......,]

2、再做一个超简单的倒排索引

这一步我们需要把抓取提交过来的统一索引格式数据进行分存:

第一部分:记录关键词(id)和在多少文档中出现过。

第二部分:记录文档ID、关键字出现次数、文档发布时间,文档更新时间,网页被推荐数,文档uv。 

keywordID:[ id:2333,DF:15 ]
WordID:[ id:857,keywordID-tf:id-TF|id-TF|id-TF......, time:2020-02-16 13:10:07,leading-in:32,uv:109 ]

形成这样两部分之后我们的简单倒排就做完了,现在我们通过关键词已经能匹配到所有包含其关键词的所有文档了,这个时候我们就可以进入排序环节了。

如何结合搜索引擎原理优化自身站内搜索?

排序

到排序这一环节就简单多了,由于我们是做一个简单的所以考虑因素会相对较少一些,我们接下来会利用文档质量得分、文档发布时间、文档更新时间、网页获取推荐数量、文档本身uv这些参数来进行综合计算排序。

1、TF-IDF计算出我们的关键词得分;

2、发布时间与当前间隔得分(需要自定义一个评分标准);

3、更新时间与当前时间间隔得分(需要自定义一个评分标准);

4、根据当前内容被推荐次数计算得分(需要自定义一个评分标准);

5、根据页面被用户访问次数来计算得分(需要自定义一个评分标准);

最后我们再将这些得分综合计算用于排序,虽然我们的排序看似简单,但是基本上已经用到了搜索引擎比较有特点的一些算法和关注点,包括TF-IDF算法、时效性、简单的PageRank推荐算法以及一个简单的用户体验。

最后一步

最后也是最最重要的一步就是搜索词与关键词匹配,这里为方便大家理解,还是使用我们上一期相关搜索模型中的【分词+向量模型】技巧解决近义词问题。到这里一个简单的站内mini搜索引擎已经建立好了,当前如果要做出好的搜索引擎更是需要不断的测试、思考、迭代才能做得越来越好。

发布者:超威蓝猫,转转请注明出处:https://seowki.com/seo/baiduseo/4183.html

(1)
上一篇 2022-04-13 22:26
下一篇 2022-04-17 20:24

相关推荐

  • 为什么抓取和收录都正常,但却没有排名?

    为什么抓取和收录都正常,但却没有排名?这个问题在SEO项目实操的时候很常见,而导致这种情况出现的原因也有很多,下面我们就把这些原因盘点一下: 发现问题本质 从搜索引擎工作原理来说,通常可以看作为三个体系,也就是我们常说的:抓取、排序;我们通过问题可以发现,收录以及抓取并没有问题,所以问题也就出现在了排序阶段。 影响排序的几种情况 内容质量 对于内容质量问题来…

    2022-06-14
    00
  • 如何利用链接分析算法对相关推荐做优化?

    说到站内推荐就不得不从根源上先了解一下站内推荐在解决什么样的问题?本质上他是一项网站运营者与用户互动的过程,那我们就可以从这两个角度去分析。 相关推荐的目的 作为用户我想看什么? 相关内容 热点内容 时效性好的内容 作为运营者我可以推荐给用户看什么? 转化内容 优化内链 多样化内容 那么我们通过什么样的推荐规则和方式才能将用户和运营者所关注的问题解决呢?通常…

    2022-04-17
    00
  • 什么是淘宝直通车质量分?有哪些新质量分升级点?

    淘宝直通车质量分是指在淘宝直通车广告投放中,根据广告主的账户表现和广告质量等因素综合评估的一个指标。该指标可以反映出广告主的账户整体质量和广告效果。 什么是淘宝直通车质量分?有哪些新质量分升级点? 淘宝直通车质量分升级点是指影响质量分提升的因素。以下是一些常见的新质量分升级点: 广告点击率(CTR):广告点击率是指广告展示次数与广告被点击次数之间的比例。高点…

    百度SEO 2023-06-30
    00
  • 搜索引擎如何进行相似性分析?

    提到相似性计算就不得不先从搜索引擎检索和排序说起了,注意这里说到的是检索而不是我们之前提到的索引,SEO在优化过程中不仅仅只是要做好前期的收录和索引优化,排序方面的算法和原理也是我们需要关注的重点。 相似性分析 简单来讲,搜索引擎相似性分析是基于向量空间模型的一种算法,其中环节有:1、文档表示;2、相似性计算;特征权重计算,相似性计算在其中也是非常重要的一环…

    2022-04-12
    00
  • 怎么扣淘宝分期付款的?

    要扣除淘宝分期付款,可以按照以下步骤进行: 怎么扣淘宝分期付款的? 登录淘宝账号:首先,在电脑或手机上登录你的淘宝账号。 进入订单页面:在淘宝首页或个人中心页面,找到并点击“我的订单”选项,进入订单管理页面。 找到分期付款订单:在订单管理页面中,找到需要扣除分期付款的订单。可以通过搜索订单号、商品名称等方式进行查找。 进入分期付款详情页:点击相应订单的“查看…

    百度SEO 2023-07-01
    00

发表回复

登录后才能评论