加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

60年技术简史,带你读懂AI的前世今生

发布时间:2019-07-11 06:19:09 所属栏目:建站 来源:佚名
导读:人类的进化成长史就是一部人类制造和行使器材的汗青,差异的器材代表了人类的进化程度。从石器期间、铁器期间、蒸汽期间、电气期间再到此刻的信息期间,我们行使越发先辈便捷的器材来改变出产和糊口。 器材的目标是延长和拓展人类的手段,我们跑得不快,但

由于强化进修只是一种要领,它在许多规模都有应用,呆板人、节制和游戏是其最常见的应用规模,可是其余规模包罗天然说话处理赏罚的对话体系,也常常会用到强化进修技能。强化进修和呆板进修一样有许多要领:按照是否对情形建模可以分为Model based和Mode free的要领;凭证是否有Value函数又分为Value based要领和Policy Gradient,可是又可以把两者团结获得Actor-Critic要领……

我们这里重点存眷深度进修和强化进修团结的一些要领。

Google DeepMind在Nature颁发的文章《Human-level Control through Deep Reinforcement Learning》初次实现了End-to-End的深度强化进修模子Deep Q-Networks,它的输入是游戏画面的像素值,而输出是游戏的节制呼吁,它的道理如下图所示。

60年技能简史,带你读懂AI的宿世此生

图:Deep Q-Networks

通过Experience Replay来停止统一个trajectory数据的相干性,同时行使引入了一个Target Network 𝑄𝜃′来办理target不不变的题目,Deep Q-Networks在Atari 2600的49个游戏中,有29个游戏得分到达了人类的75%以上,而个中23个游戏中的得分高出了人类选手,如下图所示。

60年技能简史,带你读懂AI的宿世此生


图:Deep Q-Networks在Atari2600平台上的得分

Deep Q-Networks的后续改造事变包罗《Prioritized Expeience Replay》、《Deep Reinforcement Learning with Double Q-learning》和《Rainbow: Combining Improvements in Deep Reinforcement Learning》等。

而Policy Gradient类的事变包罗《Trust Region Policy Optimization》(TRPO)、Deterministic Policy Gradient Algorithms》(DPG)、《Expected Policy Gradients for Reinforcement Learning》、《Proximal Policy Optimization Algorithms》(PPO)等。

而在游戏方面,Google DeepMind颁发的各人耳熟能详的AlphaGo、AlphaGoZero和AlphaZero系列文章。

围棋办理了之后,各人也把存眷点放到了即时计谋游戏上,包罗DeepMind的《AlphaStar: An Evolutionary Computation Perspective》和OpenAI Five在星际争霸2和Dota2上都取得了很大的盼望。

另外,在Meta Learning、Imitation Learning和Inverse Reinforcement Learning也呈现了一些新的盼望,我们这里就纷歧一罗列了。

将来瞻望

最近一个较量明明的趋势就长短监视(半监视)进修的盼望,起首是在天然说话处理赏罚规模,按照前面的说明,这个规模的使命多、监视数据少的特点一向祈望能在这个偏向有所打破。在计较机视觉我们也看到了Google DeepMind的最新盼望,我认为还会有更多的打破。相对而言,在语音辨认规模这方面的盼望就慢了一些,先不说无监视,就连从一个数据集(应用场景)Transfer到另一个数据集(场景)都很难。好比我们有大量平凡话的数据,怎么可以或许行使少量的数据就能在其余带方言的平凡话长举办很好的辨认。固然有许多Adaptation的技能,可是总体看起来照旧很难到达预期。

其它一个就是End-to-End的体系在业界(除了Google声称行使)还并没有获得普及应用,虽然这跟语音规模的玩家相对很少有关,何况今朝的体系结果也不错,完全推倒重来没有须要(除非计较机视觉规模一样深度进修的要领远超传统的要领)。原本的HMM-GMM改革成HMM-DNN之后再加上各类Adaptation和sequence discriminative training,如故可以获得SOTA的结果,以是相对来讲行使End-to-end的动力就越发不敷。固然学术界大力大举在往这个偏向成长,可是老的语音玩家(Google之外)并不怎么买账。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读