设为首页 - 加入收藏 - 网站地图 江门新闻网--江门论坛--江门日报
当前位置:主页 > 体育 > AlphaGo技术启发脑科学 DeepMind成果登上Nature

AlphaGo技术启发脑科学 DeepMind成果登上Nature

时间:2023-01-26 11:51 来源:未知 作者:admin 阅读:

  分布式强化学习,也就是AlphaGo的顶级版Alpha Zero和AlphaStar背后的核心技术,为大脑中的奖赏通路如何工作提供了新解释。

  从长远来看,这也证明了DeepMind提出的算法与大脑运作逻辑相似,也就意味着能够更好地拓展到解决复杂的现实世界问题上。

  △当未来不确定时,未来的回报可以表示为一种概率分布。有些可能是好的结果(蓝绿色),有些结果可能是不好的(红色)。

  一个特定的行为所带来的未来奖励数量,通常是未知且随机。在这种情况下,标准的TD算法学习去预测的未来回报是平均的。

  他们从小鼠腹侧被盖区域(Ventral tegmental area,控制多巴胺向边缘和皮质区域释放的中脑结构)中发现了“分布式强化学习”的证据。

  一个信号会引起一个奖赏预测,当奖赏预测低于分布的均值时,会引起负的RPE,而较大的奖励会引起正的RPE。

  在一般强化学习中,获得的奖励幅度低于平均值分布将引起消极(负)的RPE,而较大的幅度将引出积极(正)的RPE(如上图a左所示)。

  这些值的预测反过来又为不同的RPE信号提供了参考点。在最后的结果上,一个单一的奖励结果可以同时激发积极(正)的RPE和消极的RPE(如上图a右所示)。

  记录结果显示,小鼠大脑的多巴胺神经元反转点根据积极程度的不同而不同。符合分布式强化学习的特点(如上图b所示)。

  将随机地将数据分成两半,并在每一半中独立地估计反转点。结果发现其中一半的反转点与另一半的反转点是相关的。

  这些情绪与未来的负面预测偏差有关,偏差则可能来自于RPE coding28、29中的不对称。

  DeepMind 神经科学研究负责人Matt Botvinick说:“当我们能够证明大脑使用的算法,与我们在人工智能工作中使用的算法类似时,这将增强我们的信心。”

  而现在的研究发现,他们致力的研究方向,竟然能够给人们研究大脑带来启发,无疑坚定了他们的研究信心。

  它就是DeepMind在2018年12月问世的AlphaFold,一个用人工智能加速科学发现的系统。

  DeepMind称,这是自己在科学发现领域的第一个重要里程碑,在生物学的核心挑战之一上取得了重大进展。

(责任编辑:admin)

顶一下
(0)
0%
踩一下
(0)
0%