深圳网站优化      
首页 百度优化 外贸网站优化 Google优化 多国外贸网站 营销型网站 网站优化案例
网络技术库 图片处理 javascript ASP seo 网站地图 标题 描述 关键词 内外链接 网站结构 数据库 爬虫 排名算法 域名 服务器 白帽 黑帽 用户体验 流量 权重 邮件营销 Div
发表文章
版主
2025/1/19 20:02:02
  谷歌爬虫文档的重大改版
谷歌近期对其爬虫文档进行了全新的调整,主概览页面得到了简化,内容被拆分成了三个更加集中和精炼的页面。更新日志虽然没有详细阐述这些变化,但实际上新增了一个全新的部分,并且将整个爬虫概览进行了基本的重写。新添加的页面提升了所有爬虫信息的密度,同时改善了主题的覆盖范围。

变化的具体情况

谷歌的文档更新日志记录了其中两条主要变动,实际上还有不少改动。技术属性部分现在增添了全新的信息,尽管抓取工具的行为没有根本变化,通过划分为三个特定主题的页面,谷歌能够在抓取工具概述页面上添加更多的信息,同时减少整体的页面字数。关于内容编码(压缩)的新内容也被纳入:“谷歌的抓取工具和提取器支持以下内容编码:gzip、deflate 和 Brotli (br)。每个谷歌的用户代理在发出每个请求时的 Accept-Encoding 头中会公开支持的内容编码。例如,Accept-Encoding:gzip、deflate、br。”此外,还增加了通过 HTTP/1.1 和 HTTP/2进行抓取的相关信息,并提出了一个目标:在不影响网站服务器的情况下尽可能多地抓取页面。

重组的意图

文档的更新主要是由于概览页面内容过于庞大。额外的信息只会让概览页面更臃肿,于是决定将内容分为三个子主题,以便特定爬虫信息能够持续扩展,同时腾出更多空间用于一般信息。将子主题拆分出来成为独立页面是一种聪明的方式,有助于更好地服务用户。文档变更日志对此的解释是:“文档变得异常冗长,限制了我们扩展有关爬虫和用户触发的抓取工具内容的能力…对谷歌抓取工具和用户触发抓取工具的文档进行了重新组织。我们还明确说明了每个抓取工具影响哪些产品,并为每个抓取工具增加了 robots.txt 代码片段,展示如何使用用户代理令牌。除此之外,内容并没有实质性的改变。”

新页面的构成

变更日志将这些调整形容为重组,以降低其重要性,然而爬虫概述页面实际上经历了相当大的重写,并且新创建了三个独立页面。虽然内容的基调保持不变,但将其按子主题分类,使得谷歌可以更简单地向新页面添加更多的信息,而不需要扩展原有的大页面。原先的页面名为谷歌抓取工具与提取器(用户代理)概述,现今实质上转变成一个概览,其中更详细的内容被转移到独立页面。

新增的爬虫类别

谷歌也推出了三个新页面。第一个是常见爬虫,正如标题所示,这些都是常用的抓取工具,其中不少与 GoogleBot 直接关联,包括使用 GoogleBot 用户代理的 Google-InspectionTool。本页面列出的所有爬虫均遵守 robots.txt 规则,并详细记录了众多谷歌爬虫的相关信息。第二类是特殊爬虫,它们与特定产品绑定,根据和这些产品用户的协议进行抓取,并且从不同于 GoogleBot 爬虫 IP 地址的地址运行。第三类是用户触发的获取器页面,涵盖了由用户特定请求激活的机器人,简单来说就是用户启动的抓取行为。比如,Google Site Verifier 根据用户的要求执行,或者在 Google Cloud (GCP) 上的网站提供了访问外部 RSS 源的功能。

总结

谷歌的爬虫概述页面发生了翻天覆地的变化。原本庞大的页面变得不再令人窒息,分成更细致的子主题后,用户能够更容易获取他们需要的信息。新结构不仅提升了可读性,也让用户能够更灵活地找到所需的信息变得充实并且深入。通过将原本综合性过强的页面划分,谷歌不仅展示了如何再造文档,也为如何提高用户的搜索体验提供了新的思路。
我要评论
 1  共 1 页
网络技术库 图片处理 javascript ASP seo 网站地图 标题 描述 关键词 内外链接 网站结构 数据库 爬虫 排名算法 域名 服务器 白帽 黑帽 用户体验 流量 权重 邮件营销 Div
营销型外贸网站设计+ SEO优化 服务电话:13510676752
深圳地址:深圳市南山区深南大道嘉南美地E栋19F   电话:13510676752        汕头地址:汕头市澄海区同益路中信金城11栋3F   电话:15815070505
|  上海谷歌优化  |  广州谷歌优化  |  杭州谷歌优化  |  北京谷歌优化 |  宁波谷歌优化  |  莆田网站优化
 Copyright @ 2000-2025 版权所有 阳光网营网