AAAI 2021最「严」一届放榜:录取率仅21%,网易伏羲9篇论文入选
本文结合world model和值函数的思想,提出了一种基于模型的值函数形式化方式,能够将环境演变和奖励分离开来。通过使用稠密的推荐环境数据而非奖励信号,我们有效地学习了一个与奖励无关的、高模型容量的world model。 不同于只预测下一步状态的传统world model,我们通过引入goal-based 强化学习框架,通过对强化学习策略的参数化序列建模,将world model扩展到了用户轨迹维度。因为传统的基于模型的规划方法效率较低,我们进一步将world model融入到值函数中,且一定程度上帮助值函数规避了高方差环境与稀疏奖励信号带来的学习问题。 在网易热门游戏《遇见逆水寒》神秘商店场景中,我们部署了这一算法,验证了该算法相比之前的监督学习与普通强化学习算法能带来较大的业务收益。 7、NeuralAC:用于比赛结果预测的学习合作与竞争效应 (NeuralAC: Learning Cooperation and Competition Effects for Match Outcome Prediction) 关键词:神经网络,比赛预测、合作竞争 预测团体比赛的胜负是一项重要且有挑战的任务。由于人具有社会属性,比赛中的成员不可避免地会与其他成员产生交互,影响比赛结局。现有的工作主要关注于学习团队成员的个体能力,或者建模团队内部的交互。然而,群体比赛中存在多种复杂的交互,包括团队内部交互(即合作效应)和团队间交互(即竞争效应)。同时,不同重要性的成员还会在群体比赛中受到不同程度的关注,影响比赛结果。 (游戏对战中的合作与竞争关系) 为此,本文提出了 NeuralAC,它能学习带权重的竞争合作效应,用于比赛结果的预测。具体来说,NeuralAC首先将个体成员投影到多个隐空间,使用神经网络作为交互函数来建模对友间的合作和对手间的竞争效应。随后,我们使用两种注意力机制来捕捉团队内部以及团队间的注意力分布,这同时提高了比赛预测的准确性和可解释性。 (NeuralAC模型框架) 在多个电子团体竞技的数据集上的实验结果都表明NeuralAC优于其它方法。该方法还可以很容易地推广到其他任务中,如团队组建、MOBA游戏平衡性检测等。 8、基于风格化的非平行语料的风格化对话回复生成 (Stylized Dialogue Response Generation Using Stylized Unpaired Texts) 关键词:自然语言处理、对话生成、自然语言生成、预训练语言模型、数据增强 (编辑:惠州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |