如何提升有效抓取 避免无效收录?

在seo优化的过程中,经常会遇到日志中有很多无效抓取,或者同一页面收录多个等问题,那怎样引导蜘蛛正确抓取?避免造成一些不必要的收录和抓取?

在seo优化的过程中,经常会遇到日志中有很多无效抓取,或者同一页面收录多个等问题,那怎样引导蜘蛛正确抓取?避免造成一些不必要的收录和抓取?
d4301503-362b-4bb7-8a1b-4413a91ef265

无效抓取的原因

通过我们对搜索引擎抓取策略的了解,我们知道搜索引擎会通过互联网链接和目录等形式分布式抓取,那导致我们出现无效抓取的原因也不外乎是以下5点:
  • robots.txt未设置完善,导致无关路径被抓取;
  • 程序规则适配未设置,导致单一页面重复收录;
  • 网页链接布局重复,导致无关页面频繁被抓取;
  • css、js等相关文件未做合并,导致抓取资源占取较大;
  • 404页面未配置,导致的无效页面抓取;
而这些文件和规则的配置,通常seo都会做,但做的还不够,必须正确配置才能将搜索引擎分配给我们的抓取资源合理利用,况且如果结构不合理或无效文件抓取过多也会给搜索引擎造成质量较差的印象。
9fed6c56-9d29-4c0c-92a3-351197e8d100

正确配置的方式方法

  • 关于robots配置
在robots中,除了对目录的屏蔽还有对链接的屏蔽规则,例如:https://img.seowki.com/?s=%E6%94%B6%E5%BD%95
我们不希望搜索url被抓取收录,便可以通过规则来进行屏蔽,找到规则中共有的  ?s=  然后在它的后面加上 * 便可以形成规则,另外我们不会设置robots的同学可以参考:http://tool.chinaz.com/robots/,另外对无关紧要的程序文件也要及时屏蔽。
  • 关于程序配置
关于程序配置需要注意的点便是避免产出重复url,如果无法在程序端修改,那一定要在服务器端适配好跳转规则,以免造成重复收录。
典型的案例就是翻页重复问题,这个翻页重复问题一般来说都是程序导致的,例如:
本质上来说,这俩页面URL虽然不同,但内容缺是相同的,所以需要及时适配跳转规则,避免无效抓取和重复收录。
  • 关于网页链接布局
合理使用 nofollow 属性,单一页面出现重复链接或者无需抓取链接均可以使用 nofollow 属性来解决。
  • 关于css与js相关文件
对于搜索引擎来说,一切新的内容都可以是被重视抓取的,但总所周知网页中的css和js文件对于seo来说并不需要占取大量抓取资源,为了合理性考虑,相关配置文件数量可少便少,可按照类型和用途进行归类汇总。
35399dc2-1f86-416a-8d9a-ad53e47b5135
另外我们之前也提到过,主域名的跳转适配也需要在建站过程中进行正确配置,否则很有可能造成www和不带www二者同时收录的情况,也是权重不集中的体现。

本文来自投稿,不代表SEOwiki立场,如若转载,请注明出处:https://seowki.com/archives/2428.html

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注