搜素引擎是怎么判断采集的?采集还能否继续?

首先我们先把问题深挖一下?问题本身就是一个误导,本质上搜索引擎并不是在判断采集,而是在判断内容的重复度以及内容的质量得分。只要把这一层想明白,问题就简单多了,而且还不会避免你的分析方向错误。

问题1:搜索引擎是否会根据我发布时间来判断我的内容是采集的?


仔细想一想这个问题本质上就是不成立的?假设我有一个站点每日发布内容10篇,每次间隔1小时,我组建了新的内容团队,这个时候我的内容团队根据我制定的标准将发布量提升到了每日更新300篇,每分钟更新2篇,难道这个时候我就被判定为采集了?


反过来思考下,对搜索引擎来说并不是不需要所谓的“采集”而是不需要重复或者垃圾的内容,所以他的判断机制和算法基本都来源于文档重复判断和特征权重算法。
回到主题:搜索引擎是如何判断采集的?这个问题其实可以拆分成两部分:

第一部分:常见的采集方式有哪些?

第二部分:搜索引擎判断采集的措施有哪些?

搜素引擎是怎么判断采集的?采集还能否继续?

常见的采集方式和质量

1、直接采集发布

2、采集+机器拼接发布

3、采集+人工伪原创发布基本上我们目前常见的采集方式就是以上这三种

第一种的两种情况:

①、直接采集正常站点发布,这种操作100%会失败,当下互联网技术日新月异,搜索引擎技术也在不断的更新迭代,想依靠完全采集正常站点来实现增长成功几率完全为0;
②、直接采集非正常站点发布,非正常站点通常指被搜索引擎K站,或者你自身站点权重极高拥有极高的爬虫信赖,这个时候完全采集发布才有较高的成功概率,前者因为被K站基本上会卡在收录评级环节;而后者看过我们往期文章的同学也清楚自身站点处于搜索引擎抓取策略中的大站优先策略中。

第二种和第三种情况:本质上选择执行机器拼接发布和人工伪原创发布的初心是为提升文章的原创度,第二种方式以我们现阶段互联网上的机器拼接或AI训练效果来说,文章本身并不属于质量文章,其可阅读性极差,即便你拥有大站优先抓取策略也仅仅只是会收录,特征权重算法排序的过程中也会存在问题。

第三种情况就比第二种情况要好的多,但是也需要了解清楚搜索引擎重复文档判断机制效果才会不错,如果不了解清楚仅靠重写内容的20%-30%效果也不会太好,甚至会导致站点进入疑似采集观察站点队列,产生不收录或收录效果较差的现象。

搜素引擎是怎么判断采集的?采集还能否继续?

搜索引擎如何判断重复

四种常见的重复类型:

  1. 两篇文档内容和布局格式上毫无差别为完全重复页面
  2. 两篇文档内容相同,但布局何时不同为内容重复页面
  3. 两篇文档有部分内容相同,但布局格式相同为布局重复页面
  4. 两篇文档有部分内容相同,并且格式不同为部分内容重复页面

除了以上直接判断,搜索引擎还会通过对文档进行特征抽取得出各个文档的特征,也就是我们SEO通常说的中文分词,实现去停止词,保留核心内容提炼特征从而压缩为文档指纹,最后进行相似性计算也就是我们所知的文档指纹比对(关于词频、以及逆文档词频计算方式我们在之前TF-IDF中提到过)。基于这种方式也对应出现了两种相似性计算算法(简单了解即可):

  • Shingling算法
  • I-Match算法

以上两种算法均是通过哈希算值为核心进行的特征计算。


问题3:我新建立的站点初期使用原创内容更新维护,后期使用采集内容扩大站点收录量实现百万级收录是否可行?

本质上如果对采集内容的处理达到常见的采集方式第三种情况中描述的前者,即便是你从建站初期就使用采集也是可以的,但是由于采集内容处理难度的问题所以我们当下还没办法将问题完全解决,只能做到标准不断优化迭代达成质量较好的效果。

如果是使用第一、二种情况的话基本上成功率为0。


逻辑上我们需要思考的几个问题:

搜素引擎是怎么判断采集的?采集还能否继续?

1、以可参与排名的收录为目标过程中阶段性kpi是否与目标一致?(确保目标一致)

2、网站定位是否允许其成为百万级收录站点?(企业站?平台站?…)

3、网站中各栏目定位是否明确?是否足够支撑你实现百万级收录站点?

4、各栏目词是否有明确分类?词量是否充足?

5、这些词需要用什么样的页面呈现?占比分别是?(产品页?内容页?聚合页…)

6、百万级采集内容来源问题?百万级采集内容的处理方式、标准和发布方式是否明确?

7、如何能让自身站点拥有抓取大站优先策略或产出链接第一时间通知搜索引擎?

8、团队是否将采集工作当成相对重要的项目进行脑暴,产出想法投入技术不断总结尝试优化迭代?

9、整个百万级收录的阶段性目标如何制定?计划进度如何跟进?

10、大量的采集处理、页面结构、关键词选择等等工作如何合理分配?人员如何规划?是否有明确的落地时间规划?

11、整个计划是否留给自己足够应对突变的缓冲期?是否拥有plan B?

如果以上问题全部想过并且有对应的答案和解决方式那么恭喜你,你已经具备了进行一次百万级收录站点跃迁实验的资格,接着就是不断试错、复盘、迭代、循环迭代,成功从来都不是一件简单的事,永远依靠别人分享出出的片面的成功经验很难成功,只有自身思考实践成功才是最好的经验。

发布者:超威蓝猫,转转请注明出处:https://seowki.com/seo/baiduseo/4164.html

(0)
上一篇 2022-04-12 13:27
下一篇 2022-04-13 22:26

相关推荐

  • 无货源店怎么在淘宝开?

    在淘宝开设无货源店铺,您可以按照以下步骤进行操作: 无货源店怎么在淘宝开? 注册淘宝账号:如果您还没有淘宝账号,请先注册一个淘宝账号。 登录淘宝卖家平台:使用您的淘宝账号登录淘宝卖家平台(https://sell.taobao.com)。 创建店铺:在淘宝卖家平台中,选择”店铺”选项,然后点击”我要开店”。根据…

    百度SEO 2023-06-29
    00
  • 为什么做网站优化?都有哪些重要因素

    在当今的互联网时代,网站优化已经成为了企业展示自己、扩大影响力的重要手段。但是,很多人并不知道为什么要做网站优化。本文将为您介绍网站优化的重要性,并给出一份网站优化的益处表格,供您参考。 首先,我们来看看为什么要做网站优化。 提高网站排名:网站优化能够提高网站的排名,使网站在搜索引擎的搜索结果中更加靠前,让更多的用户看到网站。 增加网站流量:网站优化能够增加…

    2022-12-30
    00
  • 京东怎么保证买到正品?

    京东作为一个电商平台,采取了多种措施来保证买家能够购买到正品: 京东怎么保证买到正品? 京东自营:京东自营是指由京东直接负责销售和发货的商品。京东自营商品经过严格的供应链管理和质量控制,确保产品的真实性和正品。 品牌授权:京东与众多知名品牌建立了合作关系,并获得了官方授权。这意味着在京东购买这些品牌的商品时,可以确保是正品。 严格的商家审核:京东对第三方商家…

    2023-06-28
    00
  • 是什么原因淘宝举报不成立?

    淘宝举报不成立可能有以下几个原因: 是什么原因淘宝举报不成立? 不符合举报规则:淘宝对于举报行为有一定的规则和要求。如果您的举报不符合这些规则,例如举报内容不明确、证据不足或与平台规定无关,那么举报可能会被认为不成立。 信息不完整或错误:在进行举报时,提供准确、详细和完整的信息是非常重要的。如果您提供的举报信息不完整或存在错误,导致无法验证或处理您的举报,那…

    2023-06-29
    00
  • 怎么抢淘宝整点开奖最快?方法有什么?

    淘宝商家一般都会在整点上新品,包括一些闪购或者其他需要抢购的商品,基本上都会选择在整点上架。 那么,淘宝怎样才能最快抢到呢? 怎么抢淘宝整点开奖最快?方法有什么? 淘宝购买技巧全点: 要求网速流畅、手速快、时间控制精准。 只有将一切都做到极致,才能实现这一点。 只要用户有一定程度的作弊软件,一秒支付就相当容易。 参加秒杀活动比购物车更倾向于添加收藏,一定要把…

    百度SEO 2023-06-25
    00

发表回复

登录后才能评论