时政要闻 淮南要闻 关注民生 广电动态 县区新闻 城视直击 精彩活动 房产频道 教育就业 江淮暖新闻 返回首页
各地:欢乐庆元宵
发布时间: 2017-12-11 08:27:57     来源: 淮南新闻网
原标题:
原地址:

雷锋网消息,近期,CMU发布了一篇新的论文,由一作作者Sainbayar Sukhbaatar和Ilya Kostrikov以及Arthur Szlam,Rob Fergus提出了一种新的学习方法,内在驱动学习,或称异步自我学习。论文介绍了该学习方式的优越性,并与RL方法做了比较,显示出了在复杂计算下内在驱动学习的效率类似于或更高于RL方法。本文简要介绍了这种创新方法的原理。

内在驱动学习的原理非常简单好理解,如下图:

论文中使用同一个代理的两个不同版本,并用Alice和Bob形象的对其进行命名。通过Alice和Bob的对抗学习,来实现代理对环境认知的无监督学习。

这种学习方式的实现简单概括为,Alice提出需要Bob实现的任务;并让Bob去实现任务。特别提出的是,这种机制着眼于可回退(或近似可回退)的环境,意味着环境状态允许重置,Alice将会“提出”任务,任务由几个步骤完成。

然后,Bob将会进行部分步骤回退,或某种意义上的对Alice已经完成的部分进行重复。

雷锋网了解到,通过适当的奖励机制,Alice和Bob将会自动的生成一个环境探索课程,从而实现代理的无监督学习。

比如图片中的例子就介绍了在Mazebase任务中实现的自我学习。由Alice提出Bob必须完成的任务。

  • 在这幅图片中,Alice首先捡起了钥匙,开了门后,经过大门,然后关了灯,于是进入到STOP状态。

  • 这时,智能体由Bob管控。Bob需要将环境恢复到初始状态,以获取内部奖励。于是,Bob必须先把灯打开,走过大门,放下钥匙,才能回到Alice的START状态。

这个过程需要Bob去学习环境中所有变量的作用。并且,例子中的钥匙、门、灯和其顺序都只是Alice可设计的诸多任务中的一种,

在内在驱动学习的原理中,Alice可自动产生很多的并且难度逐渐提高的任务。通过这些任务的训练,Bob可以逐渐的并且快速完成学习。当Bob收到一个新的任务的时候,比如走向途中的旗子,由于Bob已经充分认识了环境的情况,他可以很快完成任务并拿到外部奖励。

当使用RL任务来实验这种新的方法时,论文介绍道,内在驱动学习可以大大减少需要学习的内容。

原文链接:https://arxiv.org/pdf/1703.05407.pdf

淮南新闻网 编辑:赵晓蕾
0554news 淮南新闻网
微信公众号:hn0554news
随时随地关注
更多精彩内容在等你哦!
0554news 淮南新闻网
微博公众号:淮南新闻网
随时随地关注
更多精彩内容在等你哦!
24小时新闻推荐
淮南市人民政府关于加强舜耕山风景区植物保...
一花独放不是春 万紫千红春满园
淮南东华集团获全国“2015年度优秀会员单位...
电子商务大讲堂开讲
田家庵区聚焦问题导向打造“阳光信访”
确保寿县城镇医保 参保人员平稳过渡
谢家集警方:视频巡查破获系列扒窃案
寿县隐贤镇:畅通农村道路 为民生添动力
老人险陷中奖骗局 巡逻民警苦心劝回
直播?点播
淮南新闻综合频道 淮南新闻综合广播
淮南经济生活频道 淮南交通文艺广播
淮南时尚娱乐频道 淮南音乐故事广播
淮南影视剧频道  

淮南新闻联播 今晚800 天天帮忙
法约淮南 绝对出击 田野四季风
淮南房产报道 消费新主张 购食尚
健康我家人 热线追踪 快乐童萌汇
 
主办:淮南市广播电视台 版权所有:淮南新闻网 欢迎各大媒体转载 转载请注明 ( 来源淮南新闻网 ) 
信息网络传播视听节目许可证号:1205137 淮南新闻网登记备案号 06011号 皖ICP备06000649号 淮南广电网 皖ICP备07502646号
法律顾问 孔维钊(安徽徽商律师事务所) 热线电话12355