搜索引擎如何抓取和索引

了解搜索引擎优化，那就要从它的第一步开始了解，也就是抓取，第二步则是索引，最后一步则是排名，在这一章，我没有直接转译Dave Davies的【搜索引擎如何抓取和索引】，有兴趣的读者可以去看看，我觉得可以更全面的写这篇文章。

了解搜索引擎如何抓取和索引网页，可以帮助搜索引擎更快找到你的内容，并为你的内容建立索引跟排名。

搜索引擎是的存在是为了发现、理解和组织互联网的内容，以便为搜索者提出的问题提供最相关的结果。

为了出现在搜索结果中，你的内容首先需要对搜索引擎可见。这可以说是 SEO 难题中最重要的部分：如果找不到你的网站，你的内容将永远不会出现在 SERP（搜索引擎结果页面）中。

搜索引擎通过三个主要功能工作：

爬行是搜索引擎派出一组机器人（称为爬虫或蜘蛛）来查找互联网新内容和更新内容的发现过程。内容可能会有所不同——它可以是网页、图像、视频、PDF 等——但无论格式如何，内容都是通过链接发现的。

googlebot crawling

Googlebot 首先爬取几个网页，然后按照这些网页上的链接查找新网址。通过沿着这条链接路径继续爬取，爬虫能够找到新内容并将其添加到名为Caffeine的索引中——一个包含已发现 URL 的庞大数据库。

Googlebot的爬取来源：

影响爬取的主要因素：

每个搜索引擎会将其爬取的所有网页存储在其索引中（当满足它的要求时），并且会将其收录的网页按类型归类整理好，每个网页的索引条目都描述了该网页的内容和位置（网址）。搜索引擎处理和存储他们在索引中找到的信息，索引是一个巨大的数据库，包含他们发现的所有内容，并足以为搜索者提供服务。

当有人执行搜索时，搜索引擎会在其索引库中寻找高度相关的内容，然后对该内容进行排序，以解决搜索者的查询。这种按相关性对搜索结果进行排序称为排名。一般来说，您可以假设网站排名越高，搜索引擎认为该网站与查询越相关。

这就是搜索引擎工作的主要三个阶段。

发表评论 取消回复