北京网站优化 北京网站推广 北京网站建设 北京网页设计 北京SEO

提供优质的优化服务,热门词优化,SEO培训,整站优化,站群优化 010-86983211

« 搜索引擎是如何进行页面检索的?网络营销推广的4种类型 »

搜索引擎与Robots协议

  北京google推广提供原文!

Robots协议是搜索引擎爬虫和WEB站点交互的一种方式,robots.txt是存放在站点根目录下的一个纯文本文件。该文件可以指定搜索引擎爬虫只抓取指定的内容,或者是禁止搜索引擎抓取网站的全部或部分内容。

当一个搜索引擎爬虫访问一个站点时,它会首先检查改站点根目录下是否存在robots.txt,如果存在,搜索引擎爬虫就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索引擎爬虫就沿着链接抓取。

robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。具体使用格式如下。

User-agent:用于描述搜索引擎爬虫的名字,在“robots.txt”文件中,如果有多条User-agent记录说明有多个搜索引擎爬虫受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何搜索引擎爬虫均有效,在“robots.txt”文件中,“User-agent*”这样的记录只能有一条。

Disallow:用于描述不希望被访问的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow:开头的URL都不会被搜索引擎的机器人访问到。

搜索引擎爬虫必须要遵守Robots协议并执行Web站点的要求。因此搜索引擎爬虫需要有一个分析Robots协议的模块,并严格按照Robots协议的规定抓取Web主机允许访问的目录和网页。

Robots只是一个协议,如果搜索引擎爬虫的设计者不遵循这个协议,网站管理员也无非阻止搜索引擎爬虫对于某些页面的访问,但一般的搜索引擎爬虫都会遵循这些协议,而且网站管理员还可以通过其他方式来拒绝网络爬虫对某些网页的抓取。

搜索引擎爬虫在下载网页的时候,会去识别网页的HTML代码,在其代码的部分,会有META标识。通过这些标识,可以告诉搜索引擎爬虫本网页是否需要被抓取,还可以告诉搜索引擎爬虫本网页中的链接是否需要被继续跟踪。

绝大部分网站都希望搜索引擎能尽可能多的收录自己的网页,只有网页被收录了,才有可能获得搜索排名,带来流量。为了让本网站的网页更全面被抓取到,网站管理员可以建立一个网站地图,即SiteMap。许多搜索引擎会把sitemap.htm文件作为一个网站网页爬取的入口,网站管理员可以把网站内部所有网页的链接放在这个文件里面,那么搜索引擎爬虫可以很方便地把整个网站抓取下来,避免遗漏某些网页,也会减少对网站服务器的负担。

北京SEO公司

 

  • 相关文章:

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

日历

最新评论及回复

最近发表

版权所有北京google排名

Copyright 2005-2007 www.73218.com . All Rights Reserved.