搜素引擎是怎么判断采集的?采集还能否继续?

首先我们先把问题深挖一下?问题本身就是一个误导,本质上搜索引擎并不是在判断采集,而是在判断内容的重复度以及内容的质量得分。只要把这一层想明白,问题就简单多了,而且还不会避免你的分析方向错误。

问题1:搜索引擎是否会根据我发布时间来判断我的内容是采集的?


仔细想一想这个问题本质上就是不成立的?假设我有一个站点每日发布内容10篇,每次间隔1小时,我组建了新的内容团队,这个时候我的内容团队根据我制定的标准将发布量提升到了每日更新300篇,每分钟更新2篇,难道这个时候我就被判定为采集了?


反过来思考下,对搜索引擎来说并不是不需要所谓的“采集”而是不需要重复或者垃圾的内容,所以他的判断机制和算法基本都来源于文档重复判断和特征权重算法。
回到主题:搜索引擎是如何判断采集的?这个问题其实可以拆分成两部分:

第一部分:常见的采集方式有哪些?

第二部分:搜索引擎判断采集的措施有哪些?

搜素引擎是怎么判断采集的?采集还能否继续?

常见的采集方式和质量

1、直接采集发布

2、采集+机器拼接发布

3、采集+人工伪原创发布基本上我们目前常见的采集方式就是以上这三种

第一种的两种情况:

①、直接采集正常站点发布,这种操作100%会失败,当下互联网技术日新月异,搜索引擎技术也在不断的更新迭代,想依靠完全采集正常站点来实现增长成功几率完全为0;
②、直接采集非正常站点发布,非正常站点通常指被搜索引擎K站,或者你自身站点权重极高拥有极高的爬虫信赖,这个时候完全采集发布才有较高的成功概率,前者因为被K站基本上会卡在收录评级环节;而后者看过我们往期文章的同学也清楚自身站点处于搜索引擎抓取策略中的大站优先策略中。

第二种和第三种情况:本质上选择执行机器拼接发布和人工伪原创发布的初心是为提升文章的原创度,第二种方式以我们现阶段互联网上的机器拼接或AI训练效果来说,文章本身并不属于质量文章,其可阅读性极差,即便你拥有大站优先抓取策略也仅仅只是会收录,特征权重算法排序的过程中也会存在问题。

第三种情况就比第二种情况要好的多,但是也需要了解清楚搜索引擎重复文档判断机制效果才会不错,如果不了解清楚仅靠重写内容的20%-30%效果也不会太好,甚至会导致站点进入疑似采集观察站点队列,产生不收录或收录效果较差的现象。

搜素引擎是怎么判断采集的?采集还能否继续?

搜索引擎如何判断重复

四种常见的重复类型:

  1. 两篇文档内容和布局格式上毫无差别为完全重复页面
  2. 两篇文档内容相同,但布局何时不同为内容重复页面
  3. 两篇文档有部分内容相同,但布局格式相同为布局重复页面
  4. 两篇文档有部分内容相同,并且格式不同为部分内容重复页面

除了以上直接判断,搜索引擎还会通过对文档进行特征抽取得出各个文档的特征,也就是我们SEO通常说的中文分词,实现去停止词,保留核心内容提炼特征从而压缩为文档指纹,最后进行相似性计算也就是我们所知的文档指纹比对(关于词频、以及逆文档词频计算方式我们在之前TF-IDF中提到过)。基于这种方式也对应出现了两种相似性计算算法(简单了解即可):

  • Shingling算法
  • I-Match算法

以上两种算法均是通过哈希算值为核心进行的特征计算。


问题3:我新建立的站点初期使用原创内容更新维护,后期使用采集内容扩大站点收录量实现百万级收录是否可行?

本质上如果对采集内容的处理达到常见的采集方式第三种情况中描述的前者,即便是你从建站初期就使用采集也是可以的,但是由于采集内容处理难度的问题所以我们当下还没办法将问题完全解决,只能做到标准不断优化迭代达成质量较好的效果。

如果是使用第一、二种情况的话基本上成功率为0。


逻辑上我们需要思考的几个问题:

搜素引擎是怎么判断采集的?采集还能否继续?

1、以可参与排名的收录为目标过程中阶段性kpi是否与目标一致?(确保目标一致)

2、网站定位是否允许其成为百万级收录站点?(企业站?平台站?…)

3、网站中各栏目定位是否明确?是否足够支撑你实现百万级收录站点?

4、各栏目词是否有明确分类?词量是否充足?

5、这些词需要用什么样的页面呈现?占比分别是?(产品页?内容页?聚合页…)

6、百万级采集内容来源问题?百万级采集内容的处理方式、标准和发布方式是否明确?

7、如何能让自身站点拥有抓取大站优先策略或产出链接第一时间通知搜索引擎?

8、团队是否将采集工作当成相对重要的项目进行脑暴,产出想法投入技术不断总结尝试优化迭代?

9、整个百万级收录的阶段性目标如何制定?计划进度如何跟进?

10、大量的采集处理、页面结构、关键词选择等等工作如何合理分配?人员如何规划?是否有明确的落地时间规划?

11、整个计划是否留给自己足够应对突变的缓冲期?是否拥有plan B?

如果以上问题全部想过并且有对应的答案和解决方式那么恭喜你,你已经具备了进行一次百万级收录站点跃迁实验的资格,接着就是不断试错、复盘、迭代、循环迭代,成功从来都不是一件简单的事,永远依靠别人分享出出的片面的成功经验很难成功,只有自身思考实践成功才是最好的经验。

发布者:超威蓝猫,转转请注明出处:https://seowki.com/seo/baiduseo/4164.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-12 13:27
下一篇 2022-04-13 22:26

相关推荐

  • 网站内容收录后又被删除是怎么回事?

    我们在SEO项目实操的过程中,通常都会遇到收录被阶段性删除,或者是不定期收录被删除的情况,那这些情况到底是什么原因导致的呢?我们可以通过以下两个角度去分析一下这个问题。 从搜索引擎角度分析 了解搜索引擎抓取索引原理的都清楚,对搜索引擎来说,它的磁盘、内存都是有限的,为了用有限的资源做更有价值的搜索结果,搜索引擎就必须养成定期清理无效收录和索引的低质量内容。 …

    2022-06-12
    6900
  • 如何挖掘长尾关键词?具体有哪些步骤?

    很多网站在优化初期都会面临同一个问题,如何找到合适的关键词,以及长尾关键词?而这一问题在seo的优化中更是占了相当大的重要比重,那找这些词的思路和方法有哪些呢? 种子词挖掘的思路 将种子词挖掘的思路分为两部分,区分强相关与若相关,具体两部分的执行还需要根据自身精力以及人员配置考虑。 业务本身维度,强相关 产品品类 品牌 用途 材质 场景 业务相关维度,弱相关…

    2022-04-29
    16610
  • 什么是倒排索引,正向索引和倒排索引的区别是什么?

    SEO对倒排索引这个词并不陌生,但倒排索引的原理和索引结构具体是什么?索引的本质是在解决什么问题?为什么要用倒排索引?这一系列问题你会在阅读完本篇文章后有比较清楚的答案。 索引是什么? 如脑图所示,索引的存在便是为了解决将互联网海量信息进行分类,以一种合理的方式形成索引结构,让用户快速找到有价值的信息,索引结构在我们生活中也非常常见,比如一本书的目录、浏览器…

    2022-04-11
    25810
  • 搜索引擎如何进行相似性分析?

    提到相似性计算就不得不先从搜索引擎检索和排序说起了,注意这里说到的是检索而不是我们之前提到的索引,SEO在优化过程中不仅仅只是要做好前期的收录和索引优化,排序方面的算法和原理也是我们需要关注的重点。 相似性分析 简单来讲,搜索引擎相似性分析是基于向量空间模型的一种算法,其中环节有:1、文档表示;2、相似性计算;特征权重计算,相似性计算在其中也是非常重要的一环…

    2022-04-12
    21700
  • SEO如何把握垂直搜索中图片搜索的巨大流量?

    搜索引擎在没有进行通用搜索合并之前,垂直搜索优化也是seoer的优化重点,其策略上主要是通过自身产品的优化曝光以及其其他垂直性平台转载进行宣传,时至今日SEO发展到现在图片、视频等垂直搜索仍能为SEO带来巨大流量。 产品特性是否适合垂直优化 由于现在大多数seo所负责项目都是以商业化盈利为主,所以我们必须从产品的角度先去考虑是否可以支持我们去拿这一部分流量,…

    2022-06-02
    9500

发表评论

您的电子邮箱地址不会被公开。

联系我

186-1297-5547

在线咨询: QQ交谈

邮件:1205221407@qq.com

工作时间:周一至周五,9:30-17:30,节假日休息

关注微信