搜索引擎的中文分词技术简介
副问题[/!--empirenews.page--]
信息的飞速增添,使搜刮引擎成为人们查找信息的首选器材,Google、百度、中国搜刮等大型搜刮引擎一向是人们接头的话题。跟着搜刮市场代价的不绝增进,越来越多的公司开拓出本身的搜刮引擎,阿里巴巴的商机搜刮、8848的购物搜刮等也延续面世,天然,搜刮引擎技能也成为技强职员存眷的热门。 什么是中文分词 众所周知,英文是以词为单元的,词和词之间是靠空格离隔,而中文是以字为单元,句子中全部的字连起来才气描写一个意思。譬喻,英文句子I am a student,用中文则为:“我是一个门生”。计较机可以很简朴通过空格知道student是一个单词,可是不能很轻易大白“学”、“生”两个字合起来才暗示一个词。把中文的汉字序列切分成故意义的词,就是中文分词,有些人也称为切词。我是一个门生,分词的功效是:我 是 一个 门生。 中文分词和搜刮引擎 中文分词到底对搜刮引擎有多大影响?对付搜刮引擎来说,最重要的并不是找到全部功效,由于在上百亿的网页中找到全部功效没有太多的意义,没有人能看得完,最重要的是把最相干的功效排在最前面,这也称为相干度排序。中文分词的精确与否,经常直接影响到对搜刮功效的相干度排序。笔者最近替伴侣找一些关于日本和服的资料,在搜刮引擎上输入“和服”,获得的功效就发明白许多题目。下面就以这个例子来声名分词对搜刮功效的影响,在现有三此中文搜刮引擎上做测试,测试要领是直接在Google(http://www.google.com)、百度(http://www.baidu.com)上以“和服”为要害词举办搜刮: 在Google上输入“和服”搜刮全部中文简体网页,总共功效507,000条,前20条功效中有14条与和服一点相关都没有。 在百度上输入“和服”搜刮网页,总共功效为287,000条,前20条功效中有6条与和服一点相关都没有。 在中搜上输入“和服”搜刮网页,总共功效为26,917条,前20条功效都是与和服相干的网页。 这次搜刮引擎功效中的错误,就是因为分词的禁绝确所造成的。通过笔者的相识,Google的中文分词技能回收的是美国一家名叫Basis Technology(http://www.basistech.com)的公司提供的中文分词技能,百度行使的是本身公司开拓的分词技能,中搜行使的是海内海量科技(http://www.hylanda.com)提供的分词技能。由此可见,中文分词的精确度,对搜刮引擎功效相干性和精确性有相等大的相关。 中文分词技能 中文分词技能属于天然说话处理赏罚技能领域,对付一句话,人可以通过本身的常识来大白哪些是词,哪些不是词,但怎样让计较机也能领略?其处理赏罚进程就是分词算法。 现有的分词算法可分为三大类:基于字符串匹配的分词要领、基于领略的分词要领和基于统计的分词要领。 1、基于字符串匹配的分词要领 这种要领又叫做机器分词要领,它是凭证必然的计策将待说明的汉字串与一个“充实大的”呆板辞书中的词条举办配,若在辞书中找到某个字符串,则匹配乐成(辨认出一个词)。凭证扫描偏向的差异,串匹配分词要领可以分为正向匹配和逆向匹配;凭证差异长度优先匹配的环境,可以分为最大(最长)匹配和最小(最短)匹配;凭证是否与词性标注进程相团结,又可以分为纯真分词要领和分词与标注相团结的一体化要领。常用的几种机器分词要领如下: 1)正向最大匹配法(由左到右的偏向); 2)逆向最大匹配法(由右到左的偏向); 3)起码切分(使每一句中切出的词数最小)。 还可以将上述各类要领彼此组合,譬喻,可以将正向最大匹配要领和逆向最大匹配要领团结起来组成双向匹配法。因为汉语单字成词的特点,正向最小匹配和逆向最小匹配一样平常很少行使。一样平常说来,逆向匹配的切分精度略高于正向匹配,碰着的歧义征象也较少。统计功效表白,纯真行使正向最大匹配的错误率为1/169,纯真行使逆向最大匹配的错误率为1/245。但这种精度还远远不能满意现实的必要。现实行使的分词体系,都是把机器分词作为一种初星散段,还需通过操作各类其余的说话信息来进一步进步切分的精确率。 一种要领是改造扫描方法,称为特性扫描或符号切分,优先在待说明字符串中辨认和切分出一些带有明明特性的词,以这些词作为断点,可将原字符串分为较小的串再来进机器分词,从而镌汰匹配的错误率。另一种要领是将分词和词类标注团结起来,操作富厚的词类信息对分词决定提供辅佐,而且在标注进程中又反过来对分词功效举办检讨、调解,从而极大地进步切分的精确率。 对付机器分词要领,可以成立一个一样平常的模子,在这方面有专业的学术论文,这里不做具体阐述。 2、基于领略的分词要领 这种分词要领是通过让计较机模仿人对句子的领略,到达辨认词的结果。其根基头脑就是在分词的同时举办句法、语义说明,操作句法信息和语义信息来处理赏罚歧义征象。它凡是包罗三个部门:分词子体系、句法语义子体系、总控部门。在总控部门的和谐下,分词子体系可以得到有关词、句子等的句法和语义信息来对分词歧义举办判定,即它模仿了人对句子的领略进程。这种分词要领必要行使大量的说话常识和信息。因为汉语说话常识的笼统、伟大性,难以将各类说话信息组织成呆板可直接读取的情势,因此今朝基于领略的分词体系还处在试验阶段。 3、基于统计的分词要领 从情势上看,词是不变的字的组合,因此在上下文中,相邻的字同时呈现的次数越多,就越有也许组成一个词。因此字与字相邻共现的频率或概率可以或许较好的反应成词的可信度。可以对语料中相邻共现的各个字的组合的频度举办统计,计较它们的互现信息。界说两个字的互现信息,计较两个汉字X、Y的相邻共现概率。互现信息浮现了汉字之间团结相关的细密水平。当细密水平高于某一个阈值时,便可以为此字组也许组成了一个词。这种要领只需对语料中的字组频度举办统计,不必要切分辞书,因而又叫做无辞书分词法或统计取词要领。但这种要领也有必然的范围性,会常常抽出一些共现频度高、但并不是词的常用字组,譬喻“这一”、“之一”、“有的”、“我的”、“很多的”等,而且对常用词的辨认精度差,时空开销大。现实应用的统计分词体系都要行使一部根基的分词辞书(常用词辞书)举办串匹配分词,同时行使统计要领辨认一些新的词,即将串频统计和串匹配团结起来,既施展匹配分词切分速率快、服从高的特点,又操作了无辞书分词团结上下文辨认生词、自动消除歧义的利益。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |