搜索引擎如何抓取和索引

了解搜索引擎优化,那就要从它的第一步开始了解,也就是抓取,第二步则是索引,最后一步则是排名,在这一章,我没有直接转译Dave Davies的【搜索引擎如何抓取和索引】,有兴趣的读者可以去看看,我觉得可以更全面的写这篇文章。

了解搜索引擎如何抓取和索引网页,可以帮助搜索引擎更快找到你的内容,并为你的内容建立索引跟排名。

搜索引擎是的存在是为了发现、理解和组织互联网的内容,以便为搜索者提出的问题提供最相关的结果。

为了出现在搜索结果中,你的内容首先需要对搜索引擎可见。这可以说是 SEO 难题中最重要的部分:如果找不到你的网站,你的内容将永远不会出现在 SERP(搜索引擎结果页面)中。

搜索引擎是如何工作的?

搜索引擎通过三个主要功能工作:

  1. 爬行:在互联网上搜索内容,查看他们找到的每个 URL/内容。
  2. 索引:存储和组织在爬行过程中发现的内容。一旦页面在索引中,它就会在运行中显示为相关查询的结果。
  3. 排名:提供最能回答搜索者查询的内容片段,这意味着结果按最相关到最不相关的顺序排列。

什么是搜索引擎抓取/爬行/爬网(Crawling)?

爬行是搜索引擎派出一组机器人(称为爬虫或蜘蛛)来查找互联网新内容和更新内容的发现过程。内容可能会有所不同——它可以是网页、图像、视频、PDF 等——但无论格式如何,内容都是通过链接发现的。

googlebot crawling

Googlebot 首先爬取几个网页,然后按照这些网页上的链接查找新网址。通过沿着这条链接路径继续爬取,爬虫能够找到新内容并将其添加到名为Caffeine的索引中——一个包含已发现 URL 的庞大数据库。

Googlebot的爬取来源:

  1. 反向连接
  2. 站点地图
  3. 站长提交的URL

影响爬取的主要因素:

  1. 页面权重
  2. 页面更新频率
  3. 是否为新页面

什么是搜索引擎索引/收录(Indexing)?

每个搜索引擎会将其爬取的所有网页存储在其索引中(当满足它的要求时),并且会将其收录的网页按类型归类整理好,每个网页的索引条目都描述了该网页的内容和位置(网址)。搜索引擎处理和存储他们在索引中找到的信息,索引是一个巨大的数据库,包含他们发现的所有内容,并足以为搜索者提供服务。

什么是搜索引擎排名/排序(Ranking)

当有人执行搜索时,搜索引擎会在其索引库中寻找高度相关的内容,然后对该内容进行排序,以解决搜索者的查询。这种按相关性对搜索结果进行排序称为排名。一般来说,您可以假设网站排名越高,搜索引擎认为该网站与查询越相关。

这就是搜索引擎工作的主要三个阶段。

推荐阅读:

 

发表评论