原文有北京google推广提供,转载请注明链接!
搜索引擎检索器的作用,是针对用户的查询请求在索引库中快速检出文档,采用一定的算法,对输出的结果进行排序。
检索器的工作过程如下:
检索器对用户接口(UI)提出的查询要求进行递归分析,在UI中一般采用基本语法来组织和检索的条件。
检索器通常支持多种语法规则,如逻辑操作符AND/OR/NOT,使用“+”、“-”连接号和通配符,使用逗号、括号或引号进行词组查询等。
对于每个索引项,匹配Index文件,查找倒排表中包含该索引项的文档,并对所有查找到的文档进行集合运算,将结果集按照基于内容和超文本链接分析的方法进行相关度评价并排序,最大限度地保证检索出的结果与用户查询串有很高的相关性,将最终形成的有序文档结果集返回给UI。
当用户输入关键词后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。
因为所有相关网页针对该关键词的相关度早已算好,所有只需要按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成的系统将搜索结果的链接地址和页面摘要组织起来返回给用户。
搜索引擎的爬虫会定期重新访问所有页面,更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容变化情况就会反映到用户的查询结果中。
对于互联网来说,由于各搜索引擎的能力和偏好不同,所有抓取的网页各不相同,排序算法也有差异。大型搜索引擎例如Google和百度的数据库会存储几亿甚至几十亿的网页索引,数据量达到几千GB甚至几万GB。
但即使搜索引擎建立超过20亿网页的索引数据库,也只能占到互联网上普通页面数量的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。使用不同的搜索引擎的重要原因,就是它们能分别搜索到不同的内容。
-
-
-
北京SEO公司专业服务-汉联SEO