搜素引擎是怎么判断采集的?采集还能否继续?

首先我们先把问题深挖一下?问题本身就是一个误导,本质上搜索引擎并不是在判断采集,而是在判断内容的重复度以及内容的质量得分。只要把这一层想明白,问题就简单多了,而且还不会避免你的分析方向错误。

首先我们先把问题深挖一下?问题本身就是一个误导,本质上搜索引擎并不是在判断采集,而是在判断内容的重复度以及内容的质量得分。只要把这一层想明白,问题就简单多了,而且还不会避免你的分析方向错误。
001
问题1:搜索引擎是否会根据我发布时间来判断我的内容是采集的?
仔细想一想这个问题本质上就是不成立的?假设我有一个站点每日发布内容10篇,每次间隔1小时,我组建了新的内容团队,这个时候我的内容团队根据我制定的标准将发布量提升到了每日更新300篇,每分钟更新2篇,难道这个时候我就被判定为采集了?
反过来思考下,对搜索引擎来说并不是不需要所谓的“采集”而是不需要重复或者垃圾的内容,所以他的判断机制和算法基本都来源于文档重复判断和特征权重算法。
回到主题:搜索引擎是如何判断采集的?这个问题其实可以拆分成两部分,第一部分:常见的采集方式有哪些?第二部分:搜索引擎判断采集的措施有哪些?
002

常见的采集方式和质量

1、直接采集发布
2、采集+机器拼接发布
3、采集+人工伪原创发布
基本上我们目前常见的采集方式就是以上这三种
第一种的两种情况:
①、直接采集正常站点发布,这种操作100%会失败,当下互联网技术日新月异,搜索引擎技术也在不断的更新迭代,想依靠完全采集正常站点来实现增长成功几率完全为0;
②、直接采集非正常站点发布,非正常站点通常指被搜索引擎K站,或者你自身站点权重极高拥有极高的爬虫信赖,这个时候完全采集发布才有较高的成功概率,前者因为被K站基本上会卡在收录评级环节;而后者看过我们往期文章的同学也清楚自身站点处于搜索引擎抓取策略中的大站优先策略中。
第二种和第三种情况:
本质上选择执行机器拼接发布和人工伪原创发布的初心是为提升文章的原创度,第二种方式以我们现阶段互联网上的机器拼接或AI训练效果来说,文章本身并不属于质量文章,其可阅读性极差,即便你拥有大站优先抓取策略也仅仅只是会收录,特征权重算法排序的过程中也会存在问题。
第三种情况就比第二种情况要好的多,但是也需要了解清楚搜索引擎重复文档判断机制效果才会不错,如果不了解清楚仅靠重写内容的20%-30%效果也不会太好,甚至会导致站点进入疑似采集观察站点队列,产生不收录或收录效果较差的现象。
003

搜索引擎如何判断重复

四种常见的重复类型:
  1. 两篇文档内容和布局格式上毫无差别为完全重复页面
  2. 两篇文档内容相同,但布局何时不同为内容重复页面
  3. 两篇文档有部分内容相同,但布局格式相同为布局重复页面
  4. 两篇文档有部分内容相同,并且格式不同为部分内容重复页面
除了以上直接判断,搜索引擎还会通过对文档进行特征抽取得出各个文档的特征,也就是我们SEO通常说的中文分词,实现去停止词,保留核心内容提炼特征从而压缩为文档指纹,最后进行相似性计算也就是我们所知的文档指纹比对(关于词频、以及逆文档词频计算方式我们在之前TF-IDF中提到过)。
基于这种方式也对应出现了两种相似性计算算法(简单了解即可):
  • Shingling算法
  • I-Match算法
以上两种算法均是通过哈希算值为核心进行的特征计算。
问题3:我新建立的站点初期使用原创内容更新维护,后期使用采集内容扩大站点收录量实现百万级收录是否可行?
本质上如果对采集内容的处理达到常见的采集方式第三种情况中描述的前者,即便是你从建站初期就使用采集也是可以的,但是由于采集内容处理难度的问题所以我们当下还没办法将问题完全解决,只能做到标准不断优化迭代达成质量较好的效果。如果是使用第一、二种情况的话基本上成功率为0。
逻辑上我们需要思考的几个问题:
1、以可参与排名的收录为目标过程中阶段性kpi是否与目标一致?(确保目标一致)
2、网站定位是否允许其成为百万级收录站点?(企业站?平台站?…)
3、网站中各栏目定位是否明确?是否足够支撑你实现百万级收录站点?
4、各栏目词是否有明确分类?词量是否充足?
5、这些词需要用什么样的页面呈现?占比分别是?(产品页?内容页?聚合页…)
6、百万级采集内容来源问题?百万级采集内容的处理方式、标准和发布方式是否明确?
7、如何能让自身站点拥有抓取大站优先策略或产出链接第一时间通知搜索引擎?
8、团队是否将采集工作当成相对重要的项目进行脑暴,产出想法投入技术不断总结尝试优化迭代?
10、整个百万级收录的阶段性目标如何制定?计划进度如何跟进?
11、大量的采集处理、页面结构、关键词选择等等工作如何合理分配?人员如何规划?是否有明确的落地时间规划?
12、整个计划是否留给自己足够应对突变的缓冲期?是否拥有plan B?
如果以上问题全部想过并且有对应的答案和解决方式那么恭喜你,你已经具备了进行一次百万级收录站点跃迁实验的资格,接着就是不断试错、复盘、迭代、循环迭代,成功从来都不是一件简单的事,永远依靠别人分享出出的片面的成功经验很难成功,只有自身思考实践成功才是最好的经验。
关注我,一天一个SEO知识点,让我们从0开始认识搜索引擎。

本文来自投稿,不代表SEOwiki立场,如若转载,请注明出处:https://seowki.com/archives/2195.html

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注