深度了解搜索引擎抓取及更新策略后,我们能做的还有很多!

seo经常会遇到收录、页面更新频率的一些问题,但是往往我们对这些问题解决的方式大多数都停留在:提交url、固有页面内调整抓取入口、发布外链以及投诉快照等操作上,这些操作与搜索引擎的抓取策略和更新策略都是息息相关的,我们对这些操作的本质了解多少?如果以上这些操作我们做完之后还是不收录还能做什么?

一、搜索引擎的抓取策略

深度了解搜索引擎抓取及更新策略后,我们能做的还有很多!

搜索引擎抓取策略大致分为以下四种:

宽度优先遍历策略

这种策略出现在搜索引擎搜索引擎二代初期,通过蜘蛛抓取到的页面进行URL提取直接追加到待抓取URL的队列末端等待抓取,该项策略的最大问题在于无法对重要网页进行及时抓取,但我们可以反过来思考下这个问题,如果我们该项页面在互联网上拥有大量推荐,那么该URL被发现的几率会大大提升,便可以提前进入待抓取URL队列,但这种操作基本上不常见,投入巨大但效果在当下来看并不是特别理想。

非完全PageRank策略这种策略

基于PageRank算法对页面抓取优先级进行排序,但由于搜索引擎抓取覆盖局限问题(大量未抓取页面和暗网页面)导致该项策略无法全局性计算,所以命名为“非完全PageRank策略”。

OCIP策略

OCIP策略也成为“在线页面重要性计算”,当搜索引擎抓取到一个网页时会将当前网页所拥有的权重值平均分给其页面上提取出的其余链接,并将当前页面权重值清空,以此达到待抓取网页权重值累加排序优先级的目的,此项策略与PageRank算法相似,但区别在于该项策略为即时计算无需迭代,但非完全PageRank策略需要将页面累积到一定量后重新计算各待抓取页面的权重值,需要迭代。


大站优先策略

顾名思义拥有大量数据并且页面质量达标的站点就是所谓的“大站”,达到大站以后搜索引擎便会以网站为单位进行抓取策略制定,我们结合上面的三种策略可以得出:如果想拥有大量的权重值就需要大量的链接指向,但当下搜索引擎降低外链质量分,我们只能通过制造大量符合标准的站内页面加上质量较好的友情链接才能将以上策略充分在自身站点发挥。

二、搜索引擎的更新策略

深度了解搜索引擎抓取及更新策略后,我们能做的还有很多!

搜索引擎抓取更新大致分为以下三种:
历史参考策略该项策略就是通过对以往站的更新频率以及更新量综合参考得出符合该站点的最佳更新频率,属于比较可控的操作方式,我们可以通过抓取策略中的大战优先策略将我们自身站点提升至大站水平,从而使历史参考策略发挥价值。用户体验策略用户体验策略主要是建立在用户搜索行为之上的更新策略,假设用户在搜索一个词时看完前3页的搜索结果还没有找到自己想要的内容依旧翻页,那就说明该搜索关键词所涉及到的索引库需要更新,搜索引擎便是由此利用该项策略对更新频率做了触发设置,翻页行为越强对更新影响越大。


聚类抽样策略对于互联网上所有站点搜索引擎都会将其做一个分类属性归属,以确保新站无法参与历史参考策略和用户体验策略,再通过对聚类中的站点抽样分析得出该分类属性站点的更新值,所以我们要注重新站上线后的站点属性设置问题,也是促进页面更新一种手段。

深度了解搜索引擎抓取及更新策略后,我们能做的还有很多!

通过以上的了解详细大家对抓取及更新都有了较为全面的认知,针对网页收录和更新操作也有了深入理解。

发布者:超威蓝猫,转转请注明出处:https://seowki.com/seo/baiduseo/4109.html

(0)
上一篇 2022-04-11 18:02
下一篇 2022-04-11 21:58

相关推荐

  • 如何利用链接分析算法对相关推荐做优化?

    说到站内推荐就不得不从根源上先了解一下站内推荐在解决什么样的问题?本质上他是一项网站运营者与用户互动的过程,那我们就可以从这两个角度去分析。 相关推荐的目的 作为用户我想看什么? 相关内容 热点内容 时效性好的内容 作为运营者我可以推荐给用户看什么? 转化内容 优化内链 多样化内容 那么我们通过什么样的推荐规则和方式才能将用户和运营者所关注的问题解决呢?通常…

    2022-04-17
    44700
  • 网站运营怎么做?网站运营的策略

    随着互联网的快速发展,网站已经成为了人们获取信息、进行交流和商业活动的重要平台。而网站运营作为网站发展过程中至关重要的环节,是实现网站发展目标、提升用户体验和提高网站竞争力的关键。本文将围绕“网站运营怎么做”这一主题,从网站运营的定义、目标、策略和技巧等方面进行探讨。 一、网站运营的定义 网站运营是指通过各种手段和方法,对网站进行规划、组织、管理和监控,实现…

    2023-02-20
    3000
  • 为什么抓取和收录都正常,但却没有排名?

    为什么抓取和收录都正常,但却没有排名?这个问题在SEO项目实操的时候很常见,而导致这种情况出现的原因也有很多,下面我们就把这些原因盘点一下: 发现问题本质 从搜索引擎工作原理来说,通常可以看作为三个体系,也就是我们常说的:抓取、排序;我们通过问题可以发现,收录以及抓取并没有问题,所以问题也就出现在了排序阶段。 影响排序的几种情况 内容质量 对于内容质量问题来…

    2022-06-14
    29800
  • 搜素引擎是怎么判断采集的?采集还能否继续?

    首先我们先把问题深挖一下?问题本身就是一个误导,本质上搜索引擎并不是在判断采集,而是在判断内容的重复度以及内容的质量得分。只要把这一层想明白,问题就简单多了,而且还不会避免你的分析方向错误。 问题1:搜索引擎是否会根据我发布时间来判断我的内容是采集的? 仔细想一想这个问题本质上就是不成立的?假设我有一个站点每日发布内容10篇,每次间隔1小时,我组建了新的内容…

    2022-04-12
    44500
  • TF-IDF中的TF和IDF分别是什么?如何计算?

    TF-IDF是向量空间模型中特征权重计算的一个重要环节,通俗的来讲就是搜索引擎需要对每一个收录索引的网页进行特征分析和对应的特征权重计算,具体体现为文档向量词和其对应的TF(词频)和IDF(逆文档频率)。 TF-IDF计算公式 1、TF词频因子计算的两种方式 ① wordTF=1+log(TF) ② WordTF=a+(1-a)x[TF/Max(TF)] 搜…

    2022-04-12
    50100

发表回复

登录后才能评论

评论列表(1条)

联系我

186-1297-5547

在线咨询: QQ交谈

邮件:1205221407@qq.com

工作时间:周一至周五,9:30-17:30,节假日休息

微信