人工智能这场饕餮盛宴每道菜你都熟悉吗?
·状态:署理在任何实例中的有用位置称为状态。署理人可以通过执行操纵从一个状态转换到另一个状态。停止采纳动作,无论这种状态是否正确,都有嘉奖。 ·嘉奖:嘉奖是指情形为特定举动界说的功效。假如动作正确,嘉奖是起劲的,不然就是悲观的。 任何署理人的恒久方针都是领略情形以最大化嘉奖。嘉奖可以被最大化,只要它是起劲的嘉奖,反过来是对该状态的正确动作的功效。以是最大化题目可以用简朴的术语来处理赏罚以下次序: ·给定一个有用的状态si,发生一个随机举措ai。 ·假设举措是正确的而且转换到下一个随机状态si + 1。 ·计较转换的嘉奖ri。 ·假如嘉奖是起劲的,记着该状态的动作,由于它是恰当的动作,但不是最佳动作。 ·假如嘉奖是悲观的,则放弃该举动。 ·从得到的一组最佳动作中,确定最大嘉奖的最佳动作。 ·为情形中的每个状态执行此操纵。 该等式给出如下: 意思是,Q值即状态举措值取决于旧值+新信息与旧信息之间的差别。旧信息已经存在于影象中,而新信息是通过最大化从动作中学到的嘉奖而得到的。因此,在很多强化进修题目中,我们构建了一个可以进修状态与举动之间映射的神经收集,假如动作是起劲的。一旦实习竣事,我们可以陈设收集,以便为任何有用的状态建设正确的举动,从而最大限度地得到回报。 MountainCar示例: Open AI gym 提供了一套署理人可以接管实习的情形,Mountain Car是一个很好的例子,可以通过强化进修来进修优化加快。这场角逐的方针是实习一辆车乐成登山。 我们可以从零开始实验Q进修,可能我们可以简朴地行使Kears-rl。 Krars-rl只是一组API,可以行使预先编写的算法。
如图所示。到4000竣事时,汽车已经学会了发生足够的加快度来登山。 代码: 有关强化进修的更多示例,请参阅我的GitHub设置文件:https://github.com/Narasimha1997 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |