查看会员资料

热门搜索： 源码 Android 整站插件识别 p2p OpenCV 网络编程游戏源码算法更多...

当前位置：

查看会员资料

用户名：我去六***

发送消息

1709.04326

0下载量：
多智能体设置在机器学习中的重要性日益突出。超过了最近的大量关于深度的工作多agent强化学习，层次强化学习，生成对抗网络和分散优化都可以看作是这种设置的实例。然而，多学习代理人的存在这些设置使得培训问题的非平稳常常导致不稳定的训练或不想要的最终结果。我们提出学习与对手的学习意识（萝拉），一种方法，原因的预期。其他代理的学习。罗拉学习规则包括一个额外的术语，解释了在预期的参数更新的代理政策其他药物。我们发现，利用似然比策略梯度更新的方法，可以有效地计算萝拉更新规则，使该方法适合于无模型强化学习。这
所属分类：人工智能/神经网络/深度学习
- 发布日期：2017-12-31
- 文件大小：1130496