如何结合搜索引擎原理优化自身站内搜索?

搜索引擎的原理在我们之前的文章中也提到过,本质上搜索引擎实质上就是抓取、索引、排序的过程,那如何用简单的方法对站内搜索进行优化呢?

如何结合搜索引擎原理优化自身站内搜索?

抓取

爬虫抓取这一步基本上可以省略,因为我们站内数据已经存放在我们自身的数据库中了,那这一步还需要做什么?

去除杂质:这一操作主要是为搜索结果环境做初步筛选,对内容进行清洗,最终以统一的格式提交给索引程序来执行创建索引。

1、去除重复内容

2、去除低质量或违规内容(需要制定低质量标准或违规词典)

3、屏蔽不想参与搜索的内容

4、……

这个清洗的标准视个人需求而定,以上列举了三种比较常见的,具体还需要结合自身行业和实际情况制定清洗条件。

网页标题主题内容页面创建时间页面更新时间网页导入网页UV
WordID:[ title:江西湖州古茗奶茶总部在哪?品牌加盟只能来这里,content:古茗奶茶是近几年加盟的黑马......,time:2020-02-16 13:10:07,leading-in:32,uv:109 ]
如何结合搜索引擎原理优化自身站内搜索?

索引

1、做一个超简单的正排索引

正排索引这一步便是要对我们所有符合标准的信息进行初步索引处理,延续抓取索引格式对索引格式进行丰富,形成索引文件。

  • 内容分词(可借助分词工具)
  • 去停止词
  • 通过标题以及内容进行关键词提取并记录TF(词频)
  • 为关键词赋予ID

做完以上动作我们完成了一个简单的正排索引文件,形成以下形式: 

WordID:[ title:江西湖州古茗奶茶总部在哪?品牌加盟只能来这里,content:古茗奶茶是近几年加盟的黑马......,time:2020-02-16 13:10:07,leading-in:32,uv:109 ,keywords:1(id-TF)|2(id-TF)|3(id-TF)......,]

2、再做一个超简单的倒排索引

这一步我们需要把抓取提交过来的统一索引格式数据进行分存:

第一部分:记录关键词(id)和在多少文档中出现过。

第二部分:记录文档ID、关键字出现次数、文档发布时间,文档更新时间,网页被推荐数,文档uv。 

keywordID:[ id:2333,DF:15 ]
WordID:[ id:857,keywordID-tf:id-TF|id-TF|id-TF......, time:2020-02-16 13:10:07,leading-in:32,uv:109 ]

形成这样两部分之后我们的简单倒排就做完了,现在我们通过关键词已经能匹配到所有包含其关键词的所有文档了,这个时候我们就可以进入排序环节了。

如何结合搜索引擎原理优化自身站内搜索?

排序

到排序这一环节就简单多了,由于我们是做一个简单的所以考虑因素会相对较少一些,我们接下来会利用文档质量得分、文档发布时间、文档更新时间、网页获取推荐数量、文档本身uv这些参数来进行综合计算排序。

1、TF-IDF计算出我们的关键词得分;

2、发布时间与当前间隔得分(需要自定义一个评分标准);

3、更新时间与当前时间间隔得分(需要自定义一个评分标准);

4、根据当前内容被推荐次数计算得分(需要自定义一个评分标准);

5、根据页面被用户访问次数来计算得分(需要自定义一个评分标准);

最后我们再将这些得分综合计算用于排序,虽然我们的排序看似简单,但是基本上已经用到了搜索引擎比较有特点的一些算法和关注点,包括TF-IDF算法、时效性、简单的PageRank推荐算法以及一个简单的用户体验。

最后一步

最后也是最最重要的一步就是搜索词与关键词匹配,这里为方便大家理解,还是使用我们上一期相关搜索模型中的【分词+向量模型】技巧解决近义词问题。到这里一个简单的站内mini搜索引擎已经建立好了,当前如果要做出好的搜索引擎更是需要不断的测试、思考、迭代才能做得越来越好。

发布者:超威蓝猫,转转请注明出处:https://seowki.com/seo/baiduseo/4183.html

(1)
上一篇 2022-04-13 22:26
下一篇 2022-04-17 20:24

相关推荐

  • 如何挖掘长尾关键词?具体有哪些步骤?

    很多网站在优化初期都会面临同一个问题,如何找到合适的关键词,以及长尾关键词?而这一问题在seo的优化中更是占了相当大的重要比重,那找这些词的思路和方法有哪些呢? 种子词挖掘的思路 将种子词挖掘的思路分为两部分,区分强相关与若相关,具体两部分的执行还需要根据自身精力以及人员配置考虑。 业务本身维度,强相关 产品品类 品牌 用途 材质 场景 业务相关维度,弱相关…

    2022-04-29
    10
  • 怎么扣淘宝分期付款的?

    要扣除淘宝分期付款,可以按照以下步骤进行: 怎么扣淘宝分期付款的? 登录淘宝账号:首先,在电脑或手机上登录你的淘宝账号。 进入订单页面:在淘宝首页或个人中心页面,找到并点击“我的订单”选项,进入订单管理页面。 找到分期付款订单:在订单管理页面中,找到需要扣除分期付款的订单。可以通过搜索订单号、商品名称等方式进行查找。 进入分期付款详情页:点击相应订单的“查看…

    百度SEO 2023-07-01
    00
  • 怎样运营开网店大促前的预热

    大促销前期,预热活动正如火如荼地进行。 店主们似乎已经把大促前后的转化率低视为常事,降低了一定的促销成本。 他们只是在大促销开始时才增加成本。 不得不说,这样做的效果一定不好。 因为我们在预热之前没有做好准备,导致大促期间进来的流量消化不了,那么问题来了,大促之前的热身怎么玩呢? 怎样运营开网店大促前的预热 1.明确热身期目标 1、唤醒店铺老顾客:这个需要分…

    百度SEO 2023-08-01
    00
  • 国产无人区码卡二卡3卡4卡超多资源:看的不想停!!

    国产无人区码卡二卡3卡4卡超多资源:看的不想停!!国产无人区码卡二卡3卡4卡超多资源可以看到很多用户在线互动,各种精彩表演直线连接,各种影视作品可以直接在线观看。 只要你喜欢点击就可以进入,无需验证账号登录。 相信各位朋友亲自尝试后,一定会和小编一样喜欢的。 您可以随时免费播放和下载,使用时间不限,看电影时还可以离线缓存。 可以使用本地视频。 没有时间,不仅…

    2023-06-21
    00
  • 搜索引擎如何进行相似性分析?

    提到相似性计算就不得不先从搜索引擎检索和排序说起了,注意这里说到的是检索而不是我们之前提到的索引,SEO在优化过程中不仅仅只是要做好前期的收录和索引优化,排序方面的算法和原理也是我们需要关注的重点。 相似性分析 简单来讲,搜索引擎相似性分析是基于向量空间模型的一种算法,其中环节有:1、文档表示;2、相似性计算;特征权重计算,相似性计算在其中也是非常重要的一环…

    2022-04-12
    00

发表回复

登录后才能评论