谷歌近期对其爬虫文档进行了全新的调整,主概览页面得到了简化,内容被拆分成了三个更加集中和精炼的页面。更新日志虽然没有详细阐述这些变化,但实际上新增了一个全新的部分,并且将整个爬虫概览进行了基本的重写。新添加的页面提升了所有爬虫信息的密度,同时改善了主题的覆盖范围。
变化的具体情况
谷歌的文档更新日志记录了其中两条主要变动,实际上还有不少改动。技术属性部分现在增添了全新的信息,尽管抓取工具的行为没有根本变化,通过划分为三个特定主题的页面,谷歌能够在抓取工具概述页面上添加更多的信息,同时减少整体的页面字数。关于内容编码(压缩)的新内容也被纳入:“谷歌的抓取工具和提取器支持以下内容编码:gzip、deflate 和 Brotli (br)。每个谷歌的用户代理在发出每个请求时的 Accept-Encoding 头中会公开支持的内容编码。例如,Accept-Encoding:gzip、deflate、br。”此外,还增加了通过 HTTP/1.1 和 HTTP/2进行抓取的相关信息,并提出了一个目标:在不影响网站服务器的情况下尽可能多地抓取页面。
重组的意图
文档的更新主要是由于概览页面内容过于庞大。额外的信息只会让概览页面更臃肿,于是决定将内容分为三个子主题,以便特定爬虫信息能够持续扩展,同时腾出更多空间用于一般信息。将子主题拆分出来成为独立页面是一种聪明的方式,有助于更好地服务用户。文档变更日志对此的解释是:“文档变得异常冗长,限制了我们扩展有关爬虫和用户触发的抓取工具内容的能力…对谷歌抓取工具和用户触发抓取工具的文档进行了重新组织。我们还明确说明了每个抓取工具影响哪些产品,并为每个抓取工具增加了 robots.txt 代码片段,展示如何使用用户代理令牌。除此之外,内容并没有实质性的改变。”
新页面的构成
变更日志将这些调整形容为重组,以降低其重要性,然而爬虫概述页面实际上经历了相当大的重写,并且新创建了三个独立页面。虽然内容的基调保持不变,但将其按子主题分类,使得谷歌可以更简单地向新页面添加更多的信息,而不需要扩展原有的大页面。原先的页面名为谷歌抓取工具与提取器(用户代理)概述,现今实质上转变成一个概览,其中更详细的内容被转移到独立页面。
新增的爬虫类别
谷歌也推出了三个新页面。第一个是常见爬虫,正如标题所示,这些都是常用的抓取工具,其中不少与 GoogleBot 直接关联,包括使用 GoogleBot 用户代理的 Google-InspectionTool。本页面列出的所有爬虫均遵守 robots.txt 规则,并详细记录了众多谷歌爬虫的相关信息。第二类是特殊爬虫,它们与特定产品绑定,根据和这些产品用户的协议进行抓取,并且从不同于 GoogleBot 爬虫 IP 地址的地址运行。第三类是用户触发的获取器页面,涵盖了由用户特定请求激活的机器人,简单来说就是用户启动的抓取行为。比如,Google Site Verifier 根据用户的要求执行,或者在 Google Cloud (GCP) 上的网站提供了访问外部 RSS 源的功能。
总结
谷歌的爬虫概述页面发生了翻天覆地的变化。原本庞大的页面变得不再令人窒息,分成更细致的子主题后,用户能够更容易获取他们需要的信息。新结构不仅提升了可读性,也让用户能够更灵活地找到所需的信息变得充实并且深入。通过将原本综合性过强的页面划分,谷歌不仅展示了如何再造文档,也为如何提高用户的搜索体验提供了新的思路。 |