深度了解搜索引擎抓取及更新策略后,我们能做的还有很多!

seo经常会遇到收录、页面更新频率的一些问题,但是往往我们对这些问题解决的方式大多数都停留在:提交url、固有页面内调整抓取入口、发布外链以及投诉快照等操作上,这些操作与搜索引擎的抓取策略和更新策略都是息息相关的,我们对这些操作的本质了解多少?如果以上这些操作我们做完之后还是不收录还能做什么?

seo经常会遇到收录、页面更新频率的一些问题,但是往往我们对这些问题解决的方式大多数都停留在:提交url、固有页面内调整抓取入口、发布外链以及投诉快照等操作上,这些操作与搜索引擎的抓取策略和更新策略都是息息相关的,我们对这些操作的本质了解多少?如果以上这些操作我们做完之后还是不收录还能做什么?

一、搜索引擎的抓取策略

fdd2d1da-da7d-42be-83ec-81ad4662c5d6
搜索引擎抓取策略大致分为以下四种:
宽度优先遍历策略
这种策略出现在搜索引擎搜索引擎二代初期,通过蜘蛛抓取到的页面进行URL提取直接追加到待抓取URL的队列末端等待抓取,该项策略的最大问题在于无法对重要网页进行及时抓取,但我们可以反过来思考下这个问题,如果我们该项页面在互联网上拥有大量推荐,那么该URL被发现的几率会大大提升,便可以提前进入待抓取URL队列,但这种操作基本上不常见,投入巨大但效果在当下来看并不是特别理想。
非完全PageRank策略
这种策略基于PageRank算法对页面抓取优先级进行排序,但由于搜索引擎抓取覆盖局限问题(大量未抓取页面和暗网页面)导致该项策略无法全局性计算,所以命名为“非完全PageRank策略”。
OCIP策略
OCIP策略也成为“在线页面重要性计算”,当搜索引擎抓取到一个网页时会将当前网页所拥有的权重值平均分给其页面上提取出的其余链接,并将当前页面权重值清空,以此达到待抓取网页权重值累加排序优先级的目的,此项策略与PageRank算法相似,但区别在于该项策略为即时计算无需迭代,但非完全PageRank策略需要将页面累积到一定量后重新计算各待抓取页面的权重值,需要迭代。
大站优先策略
顾名思义拥有大量数据并且页面质量达标的站点就是所谓的“大站”,达到大站以后搜索引擎便会以网站为单位进行抓取策略制定,我们结合上面的三种策略可以得出:如果想拥有大量的权重值就需要大量的链接指向,但当下搜索引擎降低外链质量分,我们只能通过制造大量符合标准的站内页面加上质量较好的友情链接才能将以上策略充分在自身站点发挥。

二、搜索引擎的更新策略

ff62eee8-7468-4a6d-a97a-fa2b47d5319f
搜索引擎抓取更新大致分为以下三种:
历史参考策略
该项策略就是通过对以往站的更新频率以及更新量综合参考得出符合该站点的最佳更新频率,属于比较可控的操作方式,我们可以通过抓取策略中的大战优先策略将我们自身站点提升至大站水平,从而使历史参考策略发挥价值。
用户体验策略
用户体验策略主要是建立在用户搜索行为之上的更新策略,假设用户在搜索一个词时看完前3页的搜索结果还没有找到自己想要的内容依旧翻页,那就说明该搜索关键词所涉及到的索引库需要更新,搜索引擎便是由此利用该项策略对更新频率做了触发设置,翻页行为越强对更新影响越大。
聚类抽样策略
对于互联网上所有站点搜索引擎都会将其做一个分类属性归属,以确保新站无法参与历史参考策略和用户体验策略,再通过对聚类中的站点抽样分析得出该分类属性站点的更新值,所以我们要注重新站上线后的站点属性设置问题,也是促进页面更新一种手段。
f574bcfb-9ecf-4c5c-8d61-91f291d48434
通过以上的了解详细大家对抓取及更新都有了较为全面的认知,针对网页收录和更新操作也有了深入理解,一天一个SEO知识点,让我们从0开始重新认识搜索引擎。

本文来自投稿,不代表SEOwiki立场,如若转载,请注明出处:https://seowki.com/archives/2144.html

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注