AlphaGo技术启发脑科学 DeepMind成果登上Nature
分布式强化学习,也就是AlphaGo的顶级版Alpha Zero和AlphaStar背后的核心技术,为大脑中的奖赏通路如何工作提供了新解释。
从长远来看,这也证明了DeepMind提出的算法与大脑运作逻辑相似,也就意味着能够更好地拓展到解决复杂的现实世界问题上。
△当未来不确定时,未来的回报可以表示为一种概率分布。有些可能是好的结果(蓝绿色),有些结果可能是不好的(红色)。
一个特定的行为所带来的未来奖励数量,通常是未知且随机。在这种情况下,标准的TD算法学习去预测的未来回报是平均的。
他们从小鼠腹侧被盖区域(Ventral tegmental area,控制多巴胺向边缘和皮质区域释放的中脑结构)中发现了“分布式强化学习”的证据。
一个信号会引起一个奖赏预测,当奖赏预测低于分布的均值时,会引起负的RPE,而较大的奖励会引起正的RPE。
在一般强化学习中,获得的奖励幅度低于平均值分布将引起消极(负)的RPE,而较大的幅度将引出积极(正)的RPE(如上图a左所示)。
这些值的预测反过来又为不同的RPE信号提供了参考点。在最后的结果上,一个单一的奖励结果可以同时激发积极(正)的RPE和消极的RPE(如上图a右所示)。
记录结果显示,小鼠大脑的多巴胺神经元反转点根据积极程度的不同而不同。符合分布式强化学习的特点(如上图b所示)。
将随机地将数据分成两半,并在每一半中独立地估计反转点。结果发现其中一半的反转点与另一半的反转点是相关的。
这些情绪与未来的负面预测偏差有关,偏差则可能来自于RPE coding28、29中的不对称。
DeepMind 神经科学研究负责人Matt Botvinick说:“当我们能够证明大脑使用的算法,与我们在人工智能工作中使用的算法类似时,这将增强我们的信心。”
而现在的研究发现,他们致力的研究方向,竟然能够给人们研究大脑带来启发,无疑坚定了他们的研究信心。
它就是DeepMind在2018年12月问世的AlphaFold,一个用人工智能加速科学发现的系统。
DeepMind称,这是自己在科学发现领域的第一个重要里程碑,在生物学的核心挑战之一上取得了重大进展。
(责任编辑:admin)