爬行和抓取-杭州SEO优化

爬行和抓取是搜索引擎工作的第一步，完成数据收集任务。

1、蜘蛛：

搜索引擎用来爬行和访问页面的程序被称为蜘蛛（spider），也称为机器人（bot）。

2、跟踪链接：

为了抓取网上尽量多的页面，搜索引擎蜘蛛会跟踪页面上的链接，从一个页面爬到下一个页面，就好像蜘蛛在蜘蛛网上爬行那样，这也是搜索引擎蜘蛛这个名称的由来。

3、吸引蜘蛛：

理论上蜘蛛能爬行和抓取所有页面，但实际上不能，也不会这么做。SEO人员想要让自己的更多页面被收录，就要想方设法吸引蜘蛛抓取。

4、地址库：

为了避免重复爬行和抓取网址，搜索引擎会建立一个地址库，记录已经被发现还没有抓取的页面，以及已经被抓取的页面。

5、文件储蓄：

搜索引擎蜘蛛抓取的数据存入原始页面数据库。其他的页面数据与用户浏览器得到的HTML是完全一样的。每个URL都是这样一个独特的文件编号。

写在结尾：以上就是爬行和抓取的详细内容，更多请关注【杭州SEO博客】其它相关文章！
本文地址：http://seo.youqingshuyuan.com/11568.html
版权声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系我们。

发表评论 取消回复

发表评论取消回复