蜘蛛工作的具体过程

2010年2月3日 由 admin 留言 »

1、首先蜘蛛爬到网站
蜘蛛只有爬到你的网站才能知道你网站什么地方该抓取,什么地方不该抓取。

2、蜘蛛下网页送回服务器
有的人会问你怎么知道是下载到服务器的?是不是乱说的,这点湖南seo研究中心给出您答案:我们可以做一个实验,你今天上传一个网站到服务器,等收录之后,你立刻把网站删除,但是你去看百度或者GOOGLE的网页快照,还是正常页面。

3、寻找网页的核心内容,然后去除HTML代码
这个相信已经不用我解释了,大家都知道,很多人都用过网页模拟抓取页面,输入您的网址下面就会出现模拟抓取的页面,您会发现只有文字。类似。

4、寻找网页的核心内容
什么叫网站的核心内容?就是这个网页最有价值的信息,引擎蜘蛛怎么寻找核心内容呢?

第一步:首先最简单的是该网站的页面对比,会去相似的部分,例如:网站的头部|底部|包含文件、以及所有相同的文件它会去除。对于一个网站搜索引擎一般会对相同部分做一个模板,来提高工作效率,有些人之前收录很好,后来改板了,结果搜索引擎内存的模板和最新的不一样,这样就会导致收录的不正常。

第二步:去掉网页的链接,去掉HTML代码、JS代码、图片、flash…等等剩下一些文字内容代码(所以和大家说在写软文的时候最好在1000个文字左右)

广告位 
分享到:

发表评论