北京网站优化 北京网站推广 北京网站建设 北京网页设计 北京SEO

提供优质的优化服务,热门词优化,SEO培训,整站优化,站群优化 010-86983211

« 什么样的网页会被搜索引擎优先抓取?搜索引擎的体系结构及Google工作原理 »

搜索引擎的英文词干提取技术-英文网站优化

原文:英文网站优化

在用户查询过程中,经常会发生如下情况:用户输入词汇是信息库中某个相关文档中词汇的一种变形,词汇的变形可以是该词的复数、动名词或过去分词的形式等。在这种情况下,可以将文档中的词汇用于它们的词干来代替。

所谓词干是单词的一部分,是去除词的前缀和后缀后留下的部分。例如单词“connect”是“connected”、“connecting”、“connection”和“connections”的词干。由于利用词干来代替原来的词汇可以将具有相同词根的词汇集中到同一个概念上,因此利用词干提取技术可以在一定程度上提高信息获取的性能,同时,由于利用词干提取技术以后,信息获取系统所需要检索索引的词汇数量减少,这与可以缩小索引空间的大小。

目前,词干提取技术可以分为4种:词缀删除、表格查询、后续变形和N个字符列。所谓表格查询方法指通过在表格种查找某个词汇的词干来实现,表格种的信息依赖于整个语言中词汇的词干。这就需要相当大的存储空间来存放这个表格,从而致使基于表格查询的词干提取的方法可操作性不强。所谓后续变形词干提取方法主要是通过结构化语言的知识来确定词素的边界,这种方法比词缀删除法要来的复杂。所谓N个字符列词干提取方法是基于对单词中字母是否应该连在一起的识别,这一过程实际上是词条聚类的过程。相对而言,基于词缀删除的词干提取技术不仅比较直观、简单、而且算法比较有效。

  • 相关文章:

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

日历

最新评论及回复

最近发表

版权所有北京google排名

Copyright 2005-2007 www.73218.com . All Rights Reserved.