北京网站优化 北京网站推广 北京网站建设 北京网页设计 北京SEO

提供优质的优化服务,热门词优化,SEO培训,整站优化,站群优化 010-86983211

« 电子商务网站项目实施前的三个步骤网站菜单与导航的设计 »

搜索引擎索引器的的语法分析

原文有英文google优化提供,转载请注明链接!
语法分析是对自然语言的形态进行分析,判断词的结构、类别和性质的过程。对于以英文为代表的形态丰富的语言来说,英文的词法分析的一个重要过程是形态分析,即将英文词还原为词干。而汉语形态变化很少,其主要的问题在与书写时词与词之间没有空格。所有通常中文词法分析的关健是分词,分词往往是后续进一步处理的基础。
搜索引擎的英文词法分析
英语的词常常由前缀、词根和后缀等部分组成。
具体到句子中,词还有性、数、格以及事态引起的词形变化。搜索引擎英文的形态分析的主要目标是将句子中的词形还原到词甚至词根。
英文的形态分析常常也称为stemming,搜索引擎分析器称为stemmer
。形态分析常常采用基于自动机的规则方法,即将词形变化的规律总结为规则,然后通过自动机的方法对词形进行转换。
转换的过程当中可使用或者不使用词典。
搜索引擎的中文分词技术
中文分词方法可以总结为两大类:
基于机械匹配和基于概率统计的分词方法
。前者通过对已有词典的机械匹配来得到分词结果。
后者不需要任何词典就可以得到分词结果,或者对粗切分结果进行基于概率统计的后处理来得到最终的分词结果。
中文分词技术面临的两个最大问题就是切分歧义和未定义词问题。
前者要解决在上下文环境下不同切分结果的选择;
后者要解决词典中未收录词的识别。比如人名、地名、机构名等。
可以在机械匹配的基础上通过规则的方法来求解上述两个问题。

然而规则方法很难穷尽真实文本的各种现象。目前比较主流的方法是通过对真实文本的概率统计来解决切分歧义和未定义词问题。

google左侧优化

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

日历

最新评论及回复

最近发表

版权所有北京google排名

Copyright 2005-2007 www.73218.com . All Rights Reserved.