北京网站优化 北京网站推广 北京网站建设 北京网页设计 北京SEO

提供优质的优化服务,热门词优化,SEO培训,整站优化,站群优化 010-86983211

« 搜索引擎的网页收集机制与网站优化搜索引擎的结构分类 »

轻松了解google搜索引擎工作原理

原文提供:北京google推广

搜索引擎基本结构

搜索引擎的工作过程分为3步:

一是在互联网中发现、搜集网页信息;二是对所搜集的信息进行提取和组织,并建立索引库;三是由检索程序根据用户输入的查询关键词,在索引库中快速捡出相关文档,进行文档于查询内容的相关度比较,对检出的结果进行排序,并将查询结果返回给用户。

搜索引擎通常由网页搜集模块、网页索引模块、查询模块和用户界面组成。根据检索结构的不同,可以将搜索引擎分为集中式结构和分布式结构。

搜索引擎的主要指标有响应时间、招回率、准确率、建立索引的方法和相关度等。

 

爬虫

网络爬虫,也成为蜘蛛程序(Spider)。网络爬虫是一个自动提取网页的程序,是搜索引擎的重要组成部分。爬虫的作用是为搜索引擎抓取大量的数据,抓取的对象是整个互联网上的网页。爬虫程序不可能抓取所有的网页,因为在抓取的同时,Web的规模也在增大,所有一个好的爬虫程序一般能够在短时间内抓取更多的网页。

网络爬虫采取的抓取策略主要有:深度优先策略、广度优先策略、不重复抓取策略、网页抓取优先策略、网页重访策略和网页抓取提速策略。Robots协议是Web站点和搜索引擎爬虫交互的一种方式,robots.txt是存放在站点根目录下的一个纯文本文件。该文件可以指定搜索引擎爬虫只抓取指定的内容,或者是禁止搜索引擎爬虫抓取网站的部分或全部内容。

 

搜索引擎的数据结构

搜索引擎的存储结构主要有顺序存储、链接存储、索引存储和散列存储。搜索引擎的信息库包含每个网页的HTML文档,每个页面都通过Zlib算法进行压缩。文本索引需要按照一定的次序来保存每个文档的信息,以便于信息的查找。不同搜索引擎采用的词典不一样,现在的词典全部存放在内存中以便快速的查找。文档中的每个词对应一个采样,采样包含该词在文档中的位置、字体和大小写等信息。前向索引是文档到词的索引,在处理文档的时候以文档为单位建立这种索引比较方便。后向索引是词到文档的索引,主要目的是为了提高文档检索的速度。

北京搜索引擎优化服务——汉联SEO

 

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

日历

最新评论及回复

最近发表

版权所有北京google排名

Copyright 2005-2007 www.73218.com . All Rights Reserved.