搜素引擎是怎么判断采集的?采集还能否继续?

首先我们先把问题深挖一下?问题本身就是一个误导,本质上搜索引擎并不是在判断采集,而是在判断内容的重复度以及内容的质量得分。只要把这一层想明白,问题就简单多了,而且还不会避免你的分析方向错误。

问题1:搜索引擎是否会根据我发布时间来判断我的内容是采集的?


仔细想一想这个问题本质上就是不成立的?假设我有一个站点每日发布内容10篇,每次间隔1小时,我组建了新的内容团队,这个时候我的内容团队根据我制定的标准将发布量提升到了每日更新300篇,每分钟更新2篇,难道这个时候我就被判定为采集了?


反过来思考下,对搜索引擎来说并不是不需要所谓的“采集”而是不需要重复或者垃圾的内容,所以他的判断机制和算法基本都来源于文档重复判断和特征权重算法。
回到主题:搜索引擎是如何判断采集的?这个问题其实可以拆分成两部分:

第一部分:常见的采集方式有哪些?

第二部分:搜索引擎判断采集的措施有哪些?

搜素引擎是怎么判断采集的?采集还能否继续?

常见的采集方式和质量

1、直接采集发布

2、采集+机器拼接发布

3、采集+人工伪原创发布基本上我们目前常见的采集方式就是以上这三种

第一种的两种情况:

①、直接采集正常站点发布,这种操作100%会失败,当下互联网技术日新月异,搜索引擎技术也在不断的更新迭代,想依靠完全采集正常站点来实现增长成功几率完全为0;
②、直接采集非正常站点发布,非正常站点通常指被搜索引擎K站,或者你自身站点权重极高拥有极高的爬虫信赖,这个时候完全采集发布才有较高的成功概率,前者因为被K站基本上会卡在收录评级环节;而后者看过我们往期文章的同学也清楚自身站点处于搜索引擎抓取策略中的大站优先策略中。

第二种和第三种情况:本质上选择执行机器拼接发布和人工伪原创发布的初心是为提升文章的原创度,第二种方式以我们现阶段互联网上的机器拼接或AI训练效果来说,文章本身并不属于质量文章,其可阅读性极差,即便你拥有大站优先抓取策略也仅仅只是会收录,特征权重算法排序的过程中也会存在问题。

第三种情况就比第二种情况要好的多,但是也需要了解清楚搜索引擎重复文档判断机制效果才会不错,如果不了解清楚仅靠重写内容的20%-30%效果也不会太好,甚至会导致站点进入疑似采集观察站点队列,产生不收录或收录效果较差的现象。

搜素引擎是怎么判断采集的?采集还能否继续?

搜索引擎如何判断重复

四种常见的重复类型:

  1. 两篇文档内容和布局格式上毫无差别为完全重复页面
  2. 两篇文档内容相同,但布局何时不同为内容重复页面
  3. 两篇文档有部分内容相同,但布局格式相同为布局重复页面
  4. 两篇文档有部分内容相同,并且格式不同为部分内容重复页面

除了以上直接判断,搜索引擎还会通过对文档进行特征抽取得出各个文档的特征,也就是我们SEO通常说的中文分词,实现去停止词,保留核心内容提炼特征从而压缩为文档指纹,最后进行相似性计算也就是我们所知的文档指纹比对(关于词频、以及逆文档词频计算方式我们在之前TF-IDF中提到过)。基于这种方式也对应出现了两种相似性计算算法(简单了解即可):

  • Shingling算法
  • I-Match算法

以上两种算法均是通过哈希算值为核心进行的特征计算。


问题3:我新建立的站点初期使用原创内容更新维护,后期使用采集内容扩大站点收录量实现百万级收录是否可行?

本质上如果对采集内容的处理达到常见的采集方式第三种情况中描述的前者,即便是你从建站初期就使用采集也是可以的,但是由于采集内容处理难度的问题所以我们当下还没办法将问题完全解决,只能做到标准不断优化迭代达成质量较好的效果。

如果是使用第一、二种情况的话基本上成功率为0。


逻辑上我们需要思考的几个问题:

搜素引擎是怎么判断采集的?采集还能否继续?

1、以可参与排名的收录为目标过程中阶段性kpi是否与目标一致?(确保目标一致)

2、网站定位是否允许其成为百万级收录站点?(企业站?平台站?…)

3、网站中各栏目定位是否明确?是否足够支撑你实现百万级收录站点?

4、各栏目词是否有明确分类?词量是否充足?

5、这些词需要用什么样的页面呈现?占比分别是?(产品页?内容页?聚合页…)

6、百万级采集内容来源问题?百万级采集内容的处理方式、标准和发布方式是否明确?

7、如何能让自身站点拥有抓取大站优先策略或产出链接第一时间通知搜索引擎?

8、团队是否将采集工作当成相对重要的项目进行脑暴,产出想法投入技术不断总结尝试优化迭代?

9、整个百万级收录的阶段性目标如何制定?计划进度如何跟进?

10、大量的采集处理、页面结构、关键词选择等等工作如何合理分配?人员如何规划?是否有明确的落地时间规划?

11、整个计划是否留给自己足够应对突变的缓冲期?是否拥有plan B?

如果以上问题全部想过并且有对应的答案和解决方式那么恭喜你,你已经具备了进行一次百万级收录站点跃迁实验的资格,接着就是不断试错、复盘、迭代、循环迭代,成功从来都不是一件简单的事,永远依靠别人分享出出的片面的成功经验很难成功,只有自身思考实践成功才是最好的经验。

发布者:超威蓝猫,转转请注明出处:https://seowki.com/seo/baiduseo/4164.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-12 13:27
下一篇 2022-04-13 22:26

相关推荐

  • PageRank算法原理是什么?具体如何计算?

    PageRank算法是网页排名的要素之一,早在PageRank算法提出之前,已经有研究者提出利用网页的入链数量来评估页面重要程度,PageRank算法的核心也正是基于这种“让链接来“投票”的核心思想出现,也就是一个页面的重要程度是由给它投票的网页数量+质量来进行链接得分分析。 PageRank算法核心 1、数量假设 如果一个网页收到其他网页的指向入链数量越多…

    2022-04-11
    45410
  • 常见的搜索引擎优化作弊手法有哪些?如何避免被误判?

    从普通的关键词密度重复作弊,或者钻搜索排序算法漏洞的黑帽操作手法,作为seo肯定都有一定的了解,本质上seo是没有黑帽以及白帽的分别,从往期我们文章内容不难看出,搜索引擎是希望可以将更符合用户体验的优质内容呈现给用户,对应我们做搜索引擎优化便是将自身的网页优化成符合用户体验的优质内容也是我们的初心,但机器毕竟是机器,算法毕竟是算法,总归还是可以找到可钻的漏洞…

    2022-04-12
    48800
  • 如何结合搜索引擎原理优化自身站内搜索?

    搜索引擎的原理在我们之前的文章中也提到过,本质上搜索引擎实质上就是抓取、索引、排序的过程,那如何用简单的方法对站内搜索进行优化呢? 抓取 爬虫抓取这一步基本上可以省略,因为我们站内数据已经存放在我们自身的数据库中了,那这一步还需要做什么? 去除杂质:这一操作主要是为搜索结果环境做初步筛选,对内容进行清洗,最终以统一的格式提交给索引程序来执行创建索引。 1、去…

    2022-04-14
    41900
  • 搜索引擎如何进行相似性分析?

    提到相似性计算就不得不先从搜索引擎检索和排序说起了,注意这里说到的是检索而不是我们之前提到的索引,SEO在优化过程中不仅仅只是要做好前期的收录和索引优化,排序方面的算法和原理也是我们需要关注的重点。 相似性分析 简单来讲,搜索引擎相似性分析是基于向量空间模型的一种算法,其中环节有:1、文档表示;2、相似性计算;特征权重计算,相似性计算在其中也是非常重要的一环…

    2022-04-12
    36200
  • 如何挖掘长尾关键词?具体有哪些步骤?

    很多网站在优化初期都会面临同一个问题,如何找到合适的关键词,以及长尾关键词?而这一问题在seo的优化中更是占了相当大的重要比重,那找这些词的思路和方法有哪些呢? 种子词挖掘的思路 将种子词挖掘的思路分为两部分,区分强相关与若相关,具体两部分的执行还需要根据自身精力以及人员配置考虑。 业务本身维度,强相关 产品品类 品牌 用途 材质 场景 业务相关维度,弱相关…

    2022-04-29
    33510

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

联系我

186-1297-5547

在线咨询: QQ交谈

邮件:1205221407@qq.com

工作时间:周一至周五,9:30-17:30,节假日休息

关注微信