原文提供:北京google推广
搜索引擎基本结构
搜索引擎的工作过程分为3步:
一是在互联网中发现、搜集网页信息;二是对所搜集的信息进行提取和组织,并建立索引库;三是由检索程序根据用户输入的查询关键词,在索引库中快速捡出相关文档,进行文档于查询内容的相关度比较,对检出的结果进行排序,并将查询结果返回给用户。
搜索引擎通常由网页搜集模块、网页索引模块、查询模块和用户界面组成。根据检索结构的不同,可以将搜索引擎分为集中式结构和分布式结构。
搜索引擎的主要指标有响应时间、招回率、准确率、建立索引的方法和相关度等。
爬虫
网络爬虫,也成为蜘蛛程序(Spider)。网络爬虫是一个自动提取网页的程序,是搜索引擎的重要组成部分。爬虫的作用是为搜索引擎抓取大量的数据,抓取的对象是整个互联网上的网页。爬虫程序不可能抓取所有的网页,因为在抓取的同时,Web的规模也在增大,所有一个好的爬虫程序一般能够在短时间内抓取更多的网页。
网络爬虫采取的抓取策略主要有:深度优先策略、广度优先策略、不重复抓取策略、网页抓取优先策略、网页重访策略和网页抓取提速策略。Robots协议是Web站点和搜索引擎爬虫交互的一种方式,robots.txt是存放在站点根目录下的一个纯文本文件。该文件可以指定搜索引擎爬虫只抓取指定的内容,或者是禁止搜索引擎爬虫抓取网站的部分或全部内容。
搜索引擎的数据结构
搜索引擎的存储结构主要有顺序存储、链接存储、索引存储和散列存储。搜索引擎的信息库包含每个网页的HTML文档,每个页面都通过Zlib算法进行压缩。文本索引需要按照一定的次序来保存每个文档的信息,以便于信息的查找。不同搜索引擎采用的词典不一样,现在的词典全部存放在内存中以便快速的查找。文档中的每个词对应一个采样,采样包含该词在文档中的位置、字体和大小写等信息。前向索引是文档到词的索引,在处理文档的时候以文档为单位建立这种索引比较方便。后向索引是词到文档的索引,主要目的是为了提高文档检索的速度。
北京搜索引擎优化服务——汉联SEO