搜索引擎的中文分词技术简介
到底哪种分词算法的精确度更高,今朝并无定论。对付任何一个成熟的分词体系来说,不行能单独依赖某一种算法来实现,都必要综合差异的算法。笔者相识,海量科技的分词算法就回收“复方分词法”,所谓复方,相等于用中药中的复方观念,即用差异的药才综合起往复医治疾病,同样,对付中文词的辨认,必要多种算法来处理赏罚差异的题目。 分词中的困难 有了成熟的分词算法,是否就能轻易的办理中文分词的题目呢?究竟远非云云。中文是一种异常伟大的说话,让计较机领略中文说话更是坚苦。在中文分词进程中,有两浩劫题一向没有完全打破。 1、歧义辨认 歧义是指同样的一句话,也许有两种可能更多的切分要领。譬喻:外貌的,由于“外貌”和“面的”都是词,那么这个短语就可以分成“外貌 的”和“表 面的”。这种称为交错歧义。像这种交错歧义异常常见,前面举的“和服”的例子,着实就是由于交错歧义引起的错误。“扮装和打扮”可以分成“扮装 和 打扮”可能“扮装 和服 装”。因为没有人的常识去领略,计较机很难知道到底哪个方案正确。 交错歧义相对组合歧义来说是还算较量轻易处理赏罚,组合歧义就必须按照整个句子来判定了。譬喻,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军录用了一名中将”中,“中将”是个词,但在句子“产量三年中将增添两倍”中,“中将”就不再是词。这些词计较机又怎样去辨认? 假如交错歧义和组合歧义计较机都能办理的话,在歧义中尚有一个困难,是真歧义。真歧义意思是给出一句话,由人去判定也不知道哪个应该是词,哪个应该不是词。譬喻:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,假如没有上下文其他的句子,生怕谁也不知道“拍卖”在这里算不算一个词。 2、新词辨认 新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典范的是人名,人可以很轻易领略句子“王军虎去广州了”中,“王军虎”是个词,由于是一小我私人的名字,但要是让计较机去辨认就坚苦了。假如把“王军虎”做为一个词收录到字典中去,全天下有那么多名字,并且时时候刻都有新增的人名,收录这些人名自己就是一项庞大的工程。纵然这项事变可以完成,照旧会存在题目,譬喻:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词? 新词中除了人名以外,尚有机构名、地名、产物名、商标名、简称、省略语等都是很难处理赏罚的题目,并且这些又正好是人们常常行使的词,因此对付搜刮引擎来说,分词体系中的新词辨认异常重要。今朝新词辨认精确率已经成为评价一个分词体系优劣的重要符号之一。 中文分词的应用 今朝在天然说话处理赏罚技能中,中文处理赏罚技能比西文处理赏罚技能要落伍很大一段间隔,很多西文的处理赏罚要领中文不能直接回收,就是由于中文必须有分词这道工序。中文分词是其他中文信息处理赏罚的基本,搜刮引擎只是中文分词的一个应用。其他的好比呆板翻译(MT)、语音合成、自动分类、自动择要、自动校对等等,都必要用到分词。由于中文必要分词,也许会影响一些研究,但同时也为一些企业带来机遇,由于海外的计较机处理赏罚技能要想进入中国市场,起首也是要办理中文分词题目。在中文研究方面,对比外国人来说,中国人有十理解显的上风。 分词精确性对搜刮引擎来说异常重要,但假如分词速率太慢,纵然精确性再高,对付搜刮引擎来说也是不行用的,由于搜刮引擎必要处理赏罚数以亿计的网页,假如分词耗用的时刻过长,会严峻影响搜刮引擎内容更新的速率。因此对付搜刮引擎来说,分词的精确性和速率,二者都必要到达很高的要求。今朝研究中文分词的大多是科研院校,清华、北大、中科院、北京说话学院、东北大学、IBM研究院、微软中国研究院等都有本身的研究步队,而真正专业研究中文分词的贸易公司除了海量科技以外,险些没有了。科研院校研究的技能,大部门不能很快产物化,而一个专业公司的力气事实有限,看来中文分词技能要想更好的处事于更多的产物,尚有很长一段路。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |