加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 访谈 > 正文

李开复:从1983到2017,我的荣幸与遗憾

发布时间:2017-09-04 00:40:39 所属栏目:访谈 来源:创事记
导读:副问题#e# 文/李开复 1 本日跟各人讲个故事。 1983- 1988 年,我正在卡内基·梅隆大学读计较机博士。 我正忙着暑期教书,秋日投身奥赛罗人机博弈(利害棋游戏,那是呆板第一次真正意义上打败人类冠军的角逐)。 我的导师瑞迪传授(Raj Reddy,图灵奖得主、
副问题[/!--empirenews.page--]

李开复:从1983到2017,我的侥幸与遗憾

  文/李开复

  1

  本日跟各人讲个故事。

  1983- 1988 年,我正在卡内基·梅隆大学读计较机博士。

  我正忙着暑期教书,秋日投身奥赛罗人机博弈(利害棋游戏,那是呆板第一次真正意义上打败人类冠军的角逐)。

  我的导师瑞迪传授(Raj Reddy,图灵奖得主、卡内基梅隆大学计较机系终身传授、美国工程院院士)从美国国防部获得了 300 万美元的经费,用来做不指定语者、大词库、持续性的语音辨认。

  也就是说,他但愿呆板能听懂任何人的声音,并且可以懂上千个词汇,懂人们天然持续说出的每一句话。

  这三个题目都是其时无解的题目。

  而瑞迪传授斗胆地拿下项目,但愿同时办理这三个题目。他在全美雇用了 30 多位传授、研究员、语音学家、门生、措施员,以启动这个有史以来最大的语音项目。

  我也在这 30 人名单之内。

  其时的科研配景是,业界已经有相同本日深度进修的算法,但一向没有实现数据尺度化,数据量也不敷够大。

  美国几大语音辨认尝试室(如MIT、 CMU、 SRI、 IBM、贝尔尝试室)都是各用各的数据库,测试数据差异,实习数据差异,行使的说话模子差异,测试的词汇量也差异。以是都各称业界第一,各人莫衷一是。

  而每个大公司都有本身的贸易需求,好比说在语音辨认方面,昔时做打字机的IBM想做语音打字机,把持美国电信的AT&T要求贝尔尝试室辨认电话号码,以是大公司并没有动力来辅佐小公司或学校。而小公司和学校,每每只有资源做些较小的数据集,功效凡是也不如大公司的好。

  不只云云,数据不尺度对AI研究而言是致命的,最后导致许多题目,包罗:

  1、由于测试语料库差异,最后辨认功效,各人无法复制,也无法验证。互相不承认,并且由于数据没有买通,算法就更不行能买通了。

  2、由于每家做的规模差异,最后的功效都不行比。有些规模词汇量小,较量轻易,可是做出功效也也许不能通用。有些规模词汇量大,可是束缚许多,以是能说的内容不多,导致较量轻易辨认,也不能通用。

  3、由于每家实习集纷歧样大,而实习集越大,一样平常功效越好。以是,有也许功效做的好,被以为并不是靠算法,而是靠数据量大。

  4、对付学术单元来说,最大的题目来自于没有足够的资源(也没有乐趣)网络、洗濯、标注大量的语料。对付小公司来说,语料和计较力都是题目。

  最后,瑞迪传授打算回收“专家体系”来完成项目,由于这个要领必要的数据有限。

  专家体系是早期人工智能的一个重要分支,你可以把它看作是一类具有专门常识和履历的计较机警能措施体系,一样平常回收人工智能中的常识暗示和常识推理技能来模仿凡是由规模专家才气办理的伟大题目。

  但我不认同。

  2

  之前介入过的奥赛罗的人机博弈,让我对统计观念有了充实的领略,我对瑞迪传授的研究要领发活跃摇。

  我信托成立大型的数据库,然后对大的语音数据库举办分类,有也许办理专家体系不能办理的题目。

  其它,在 1985 年,美国尺度局 (NationalInstitute of Standards and Technology)也意识到数据不尺度会影响科研前进。以是在语音辨认题目上,尺度局设定了尺度的语音和说话的实习集、测试集。要求每个学校的每个团队都用同样的实习集来实习模子,可以本身调好体系参数,角逐最后一天各人拿到数据,有一天时刻跑出功效,各人评选。

  我从这个尺度数据集和测试看到机遇。

  再三思索后,我抉择鼓足勇气,向瑞迪传授直接表达我的设法。我对瑞迪说:“我但愿转投统计学,用统计学来办理这个‘不特定语者、大词汇、持续性语音辨认’。”

李开复:从1983到2017,我的侥幸与遗憾

  我觉得瑞迪会有些扫兴,没想到他一点都没有气愤,他轻轻地问:“那统计要领怎样办理这三大题目呢?”

  瑞迪传授耐性地听完我豪情的答复后,用他那永久暖和的声音汇报我:“开复,你对专家体系和统计的概念,我是差异意的,可是我可以支持你用统计的要领去做,由于我信托科学没有绝对的对错,我们都是划一的。并且,我更信托一个有豪情的人是也许找到更好的办理方案的。”

  那一刻,我的打动无以伦比。由于对一个传授来说,门生要用本身的要领作出一个与他唱反调的研究。传授不单没有动怒,还给以充实的支持,这在许多处所是不行想象的。

  统计学必要大数据库,我们怎样才气成立起大的数据库呢?

  瑞迪传授看到我愁云满面的样子,再一次给了我支持。他说,“开复,固然说我照旧对你的研究要领有所保存,可是,在科学的规模里,着实也无所谓先生和门生的区别,我们都是面对这一个困难的攻陷者,以是,假如你真的必要数据库,那么,让我去说服当局帮你成立一个大的数据库吧!”

  瑞迪传授其后说服了美国当局部分和美国尺度局网络并提供了大量数据。我用美国尺度局提供的尺度大数据,跟多家拿国度钱的机构数据,其后一些不拿国度钱的单元(如:IBM,AT&T)也参加进来,我可行使的数据越滚越大。

  除了大数据,统计学的要领还必要很是快的呆板,瑞迪传授又帮我购置了最新的Sun4 呆板。从此每次有新的呆板,他城市说:“先问问开复要不要。” 做论文的两年多,我至少花了他几十万美元的经费。

  瑞迪传授的宽容再次让我感受到一种巨大的力气,这是一种自由和信赖的力气。

  3

  在导师的支持下,我开始了猖獗的科研事变。

  其时,我带着另一位门生一路用统计的要领做语音辨认。同时,其他 30 多人用专家体系做同样的题目。从要领上来说,我们在竞争,可是在瑞迪传授的率领下,我们分享统统,我们用同样的样本实习和测试。

  在 1986 年底,我的统计体系和他们的专家体系到达了约莫一样的程度,40%的识别率。这固然照旧完全不能用的体系,但事实是学术界第一次实行这么难的题目,各人照旧较量欣喜和乐观的。

   1987 年 5 月,我们大幅度地晋升了实习的数据库,回收了新的建模要领,不单可以或许用统计学的要领进修每一个音,并且可以用统计学的要领进修每两个音之间的转折。针对有些音的样本不足,我又想出了一种要领(generalized triphones)来归并其他的音。这三项事变居然把呆板的语音辨认率从原本的40%进步到了80%!其后又进步到96%。

  统计学的要领用于语音辨认起源被验证是正确的偏向。

  各人都信托了我用的呆板进修要领和隐马可夫模子算法,而且丢弃了不行行的专家体系(专家体系只到达60%的辨认率)。在我的博士论文基本上,其后的Nuance,微软、苹果等公司做出了业界最领先的产物。

   1988 年 4 月,我受邀到纽约介入一年一度的天下语音学术集会会议,颁发学术论文。

  这个成就撼动了整个学术规模。这是其时计较机规模里最顶尖的科学成就。

  语音辨认率大幅度进步,让全天下语音研究规模闪烁出一道但愿的光线,以后,全部以专家体系研究语音识此外人所有转向了统计要领。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读