加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

人工智能这场饕餮盛宴每道菜你都熟悉吗?

发布时间:2018-04-26 17:11:22 所属栏目:教程 来源:李佳惠
导读:【资讯】起首,什么是人工智能? 人工智能是计较机科学(或科学)的一个分支,它是处理赏罚智能体系的建设。而智能体系就是像人类一样拥有智能的体系。 人工智能科学着实并不奇怪,这个术语在古希腊和埃及的手稿中已经提到。希腊人信托天主赫菲斯托斯,也被称为铁

  ·状态:署理在任何实例中的有用位置称为状态。署理人可以通过执行操纵从一个状态转换到另一个状态。停止采纳动作,无论这种状态是否正确,都有嘉奖。

人工智能这场饕餮盛宴每道菜你都熟悉吗?

  ·嘉奖:嘉奖是指情形为特定举动界说的功效。假如动作正确,嘉奖是起劲的,不然就是悲观的。

  任何署理人的恒久方针都是领略情形以最大化嘉奖。嘉奖可以被最大化,只要它是起劲的嘉奖,反过来是对该状态的正确动作的功效。以是最大化题目可以用简朴的术语来处理赏罚以下次序:

  ·给定一个有用的状态si,发生一个随机举措ai。

  ·假设举措是正确的而且转换到下一个随机状态si + 1。

  ·计较转换的嘉奖ri。

  ·假如嘉奖是起劲的,记着该状态的动作,由于它是恰当的动作,但不是最佳动作。

  ·假如嘉奖是悲观的,则放弃该举动。

  ·从得到的一组最佳动作中,确定最大嘉奖的最佳动作。

  ·为情形中的每个状态执行此操纵。

  该等式给出如下:

人工智能这场饕餮盛宴每道菜你都熟悉吗?

  意思是,Q值即状态举措值取决于旧值+新信息与旧信息之间的差别。旧信息已经存在于影象中,而新信息是通过最大化从动作中学到的嘉奖而得到的。因此,在很多强化进修题目中,我们构建了一个可以进修状态与举动之间映射的神经收集,假如动作是起劲的。一旦实习竣事,我们可以陈设收集,以便为任何有用的状态建设正确的举动,从而最大限度地得到回报。

  MountainCar示例:

  Open AI gym 提供了一套署理人可以接管实习的情形,Mountain Car是一个很好的例子,可以通过强化进修来进修优化加快。这场角逐的方针是实习一辆车乐成登山。

  我们可以从零开始实验Q进修,可能我们可以简朴地行使Kears-rl。 Krars-rl只是一组API,可以行使预先编写的算法。

人工智能这场饕餮盛宴每道菜你都熟悉吗?
▲汽车进修发生最佳加快度  

  如图所示。到4000竣事时,汽车已经学会了发生足够的加快度来登山。

  代码:

人工智能这场饕餮盛宴每道菜你都熟悉吗?

人工智能这场饕餮盛宴每道菜你都熟悉吗?

人工智能这场饕餮盛宴每道菜你都熟悉吗?

人工智能这场饕餮盛宴每道菜你都熟悉吗?

  有关强化进修的更多示例,请参阅我的GitHub设置文件:https://github.com/Narasimha1997

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读