Google正式宣布,GoogleBot将不再遵守与索引相关的Robots.txt指令。在robots.txt中的noindex指令,必须在2019年9月1日之前将其删除并使用替代方案。
Stone Temple发表了一篇文章,指出谷歌大多遵守robots.txt noindex指令,当时的结论是这样写的:
“最终,Robots.txt中的NoIndex指令非常有效,我们测试的12个案例中有11个起作用。它可能适用于你网站,它帮助实现一个防止抓取页面并将其从索引中删除的路径。这在概念上非常有用。但是,我们的测试没有显示出100%的成功,它并不总是有效。”
Google不再支持noindex robots.txt指令。这是Google的官方推文:
“今天我们要告诉robots.txt中未记录和不受支持的规则。如果您依赖这些规则,请在我们的博客文章中了解您的选项。这是公告的相关部分:为了维护健康的生态系统并为未来的潜在开源版本做准备,我们将在2019年9月1日停用处理不支持和未发布的规则(例如noindex)的所有代码。”
如何控制爬行?谷歌的官方博客文章列出了控制索引的五种方法:
- 机器人元标记中的Noindex
- 404和410 HTTP状态代码
- 密码保护
- 在robots.txt中禁用
- 搜索控制台删除URL工具