什么是抓取预算

抓取预算是 Googlebot(和其他搜索引擎抓取工具)在给定时间内可以抓取的页面数量。管理网站的抓取预算可以提升网站的整体索引数量。

Google表示,Google不会索引一个网站上所有网页/内容(对任何搜索引擎都一样),但每个站长都希望自己网站所有重要的页面都已编入索引并能够出现在 SERP 中。现实是,我们无法 100% 控制 Google 抓取哪些页面(目前可控的因素有内部链接结构、站点地图),Google会根据自己的算法系统,确定哪些页面最重要,并按优先级列出它们。

了解 SEO 抓取预算的一种简单方法是使用以下两个示例:

  1. 小型企业:假设你经营着一家小型企业,你的网站有 100 个页面和 1,000 个页面的抓取预算(这意味着如果你创建 900 个新页面,你仍然可以满足网站的抓取预算!)。你可以优化抓取预算以提高效率,并在页面总数超过当前预算时做好准备。
  2. 大型国际企业:你拥有一家国际电子商务企业,其中有 100,000 个页面和 90,000 个页面的抓取预算。问题在于你的抓取预算,因为有 10,000 个页面不会被抓取或编入索引。虽然其中一些页面可能有noindex 标签,但你可能会失去在搜索引擎结果页面 (SERP) 中的可见性,并且客户不会被这些页面编入索引。

什么是抓取速率?

抓取速度是指 Googlebot 在抓取网站时每秒向网站发出的请求次数,例如每秒发出 5 次请求。您无法更改 Google 抓取网站的频率,但如果您希望 Google 抓取网站上的新内容或更新后的内容,可以请求重新抓取

虽然站长们无法增加 Googlebot 在抓取时每秒发出的请求数,但如果需要,可以对其进行限制。站长们还可以请求 Google 重新抓取页面。通常站长们请求Googlebot重新抓取有以下原因:

  • 该页面是新的,尚未被抓取
  • 页面上的内容或元数据已更新
  • 该页面在上次抓取期间未正确编入索引

如何检查页面是否被抓取

有两种方法可以检查页面是否被Google抓取,

  • 使用site指令
  • Google Search Console中的网址检测工具

URL Inspection Tools

在这里更加推荐第二种方法,比较准确,使用网址检测检查,第一个信息可以获取到的是,网页是否被索引,另外还有,点击右上角的“实时检测”,站长们就可以了解页面什么时间被抓取、引荐 URL 是什么、索引编制过程中出现的任何问题等。

Page Indexing Report

如果你发现你的网页还未被Google收录,你可以点击“请求索引”按钮,但是多次提交后没有索引的话,就需要检查一下内容,更多是内容质量引起的索引问题。

如何查询网站的抓取预算?

最直接的工具就是Google Search Console – Setting – Crawl Stats,抓取统计信息报告可以查询到Googlebot每天抓取网站页面的数量,更加详细的还有抓取请求数量,下载时间和平均页面相应时间,另外,你还可以查看服务器托管状态,抓取文件类型,Googlebot类型(是移动蜘蛛还是桌面蜘蛛)等。

Crawl Stats

当然还有其他第三方工具,可以查看网站日志文件,例如ScreamingFrog.

为什么抓取预算对 SEO 很重要?

如果Google分配给我们网站的抓取预算仅占网站所有页面的 50%,这就说明我们网站剩下的 50%的页面 将不会在搜索结果中被发现。对于SEO来说,多一个页面给收录,就多一个排名,展示,点击,转化的机会。

如何优化网站的抓取预算?

优化网站的抓取预算并不是件容易的事情,也许你会牵扯出许多细分优化点,但是大的优化总共有四个方向:

  1. 提高网站速度
  2. 优化内部链接
  3. 避免重复内容
  4. 优化Robots.txt

1.提高网站速度

提升网站速度有两个好处,对用户来说,打开速度快的网站用户体验度高,互动次数多,对转化表现也比较有利;而对搜索引擎抓取机器人来说,可以更快的抓取内容。可以假设一下,Googlebot一分钟抓取一个页面跟抓取10个页面,这种差距是非常大的。

2.优化内部链接

Google发现链接的方式,一种是站长们自己提交(例如Sitemap或者手动提交),另一种则是通过内部链接/外部链接,内部和外部链接是 SEO 策略的关键部分,对于用户体验和网站结构都非常重要。

在这里还需要补充一个点,Dofollow 和 Nofollow:

  • Dofollow – 如果页面 A 包含一个Dofollow标签,GoogleBot可以通过访问该内部链接并导航至抓取网页B。
  • Nofollow – 如果页面A是包含Nofollow标签,Googlebot可以看到内部链接的存在,但不会导航至或抓取网页B。

内部链接的优化对抓取预算有很大的帮助,因为使用 nofollow 或 dofollow 链接是帮助优化抓取预算的另一种方式,如果你在内部链接到一个对 Google 没有价值的页面,并且不需要它在 SERP 中排名,例如感谢页面,那么为什么要浪费宝贵的抓取预算,而这些预算本可以专门用于抓取有助于提升转化表现的页面。

站长们需要识别可能在网站上的孤立页面(Orphan Page)。孤页是没有链接到或没有任何指向它们的内部链接的页面。Googlebot通常很难找到它们,而抓取它们的唯一方法是手动请求将它们编入索引。所以内部链接的优化,将已存在的孤页都有联系的串联起来,帮助Googlebot轻松的找到它们。

3.避免重复内容

假设你有3个同样的产品页面,它们可能是蓝色/红色/绿色的手机壳,除了颜色不一样,但是内容都一样,这时候你只需要保留一个主要的页面,而另外两个变体做好规范标签,这样就不会浪费Googlebot同时对三个页面进行抓取(且不一定都会被索引),使用规范标签可以让Googlebot优先抓取重要的页面。

4.优化Robots.txt

通过优化Robots.txt文件,禁止不重要的 URL,基本上就是告诉 Google 以更高的速率抓取网站的有用部分,而且当 URL 包含指示存在动态内容的参数时,阻止这些 URL 的另一个重要好处是节省服务器资源。

影响抓取预算的因素

Google 搜索中心 确定了哪些因素会对抓取预算产生负面影响

根据Google的分析,具有大量的低附加值网址可能会不利于对网站进行抓取并将其编入索引。Google发现,低附加值网址可分为以下几类(按影响程度从低到高排序):

抓取预算的优化对大型网站来说是个非常重要的任务,上述的内容或许可以帮到许多站长,提供给大家一个着手优化的方向。

推荐阅读:

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注