湖南SEO研究中心-黑帽SEO,英文SEO工具深度研究

网络蜘蛛的两种抓取策略之广度优先和深度优先

25 12 月, 2009 by admin Leave a reply »

在抓取网页的时候，网络蜘蛛一般有两种策略：广度优先和深度优先（如下图）。

广度优先 是指网络蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。这是最常用的方式，因为这个方法可以让网络蜘蛛并行处理，提高其抓取速度。
深度优先 是指网络蜘蛛会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。

由于不可能抓取所有的网页，有些网络蜘蛛对一些不太重要的网站，设置了访问的层数。例如上图 A 为起始网页，属于 0 层，B、C、D、E、F 属于第 1 层，G、H 属于第 2 层，I 属于第 3 层。如果网络蜘蛛设置的访问层数为 2 的话，网页 I 是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到，另外一部分不能被搜索到。对于网站设计者来说，扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。
网络蜘蛛在访问网站网页的时候，经常会遇到加密数据和网页权限的问题，有些网页是需要会员权限才能访问。当然，网站的所有者可以通过协议让网络蜘蛛不去抓取，但对于一些出售报告的网站，他们希望搜索引擎能搜索到他们的报告，但又不能完全免费的让搜索者查看，这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取，从而提供搜索。而当搜索者点击查看该网页的时候，同样需要搜索者提供相应的权限验证。

分享到：

Posted in 百度探秘

Tags: SEO SEO技术广度优先和深度优先

You can follow any responses to this entry through the RSS 2.0 Feed. You can leave a response , or trackback from your own site.

发表回复

Back to Top

分享整合湖南SEO研究中心叠鹤长期实践网站优化案例,以及常用的SEO手法,调整网站内部结构,实现搜索引擎优化SEM最终目的! SiteMap BaiDu-xml 京ICP备09098159号