AlphaGo技术启发脑科学 DeepMind成果登上Nature_新冠疫情最新情况_头条新闻

当前位置：主页 > 体育 > AlphaGo技术启发脑科学 DeepMind成果登上Nature

AlphaGo技术启发脑科学 DeepMind成果登上Nature

时间：2023-01-26 11:51 来源：未知作者：admin 阅读：次

　　分布式强化学习，也就是AlphaGo的顶级版Alpha Zero和AlphaStar背后的核心技术，为大脑中的奖赏通路如何工作提供了新解释。

　　从长远来看，这也证明了DeepMind提出的算法与大脑运作逻辑相似，也就意味着能够更好地拓展到解决复杂的现实世界问题上。

　　△当未来不确定时，未来的回报可以表示为一种概率分布。有些可能是好的结果（蓝绿色），有些结果可能是不好的（红色）。

　　一个特定的行为所带来的未来奖励数量，通常是未知且随机。在这种情况下，标准的TD算法学习去预测的未来回报是平均的。

　　他们从小鼠腹侧被盖区域（Ventral tegmental area，控制多巴胺向边缘和皮质区域释放的中脑结构）中发现了“分布式强化学习”的证据。

　　一个信号会引起一个奖赏预测，当奖赏预测低于分布的均值时，会引起负的RPE，而较大的奖励会引起正的RPE。

　　在一般强化学习中，获得的奖励幅度低于平均值分布将引起消极（负）的RPE，而较大的幅度将引出积极（正）的RPE（如上图a左所示）。

　　这些值的预测反过来又为不同的RPE信号提供了参考点。在最后的结果上，一个单一的奖励结果可以同时激发积极（正）的RPE和消极的RPE（如上图a右所示）。

　　记录结果显示，小鼠大脑的多巴胺神经元反转点根据积极程度的不同而不同。符合分布式强化学习的特点（如上图b所示）。

　　将随机地将数据分成两半，并在每一半中独立地估计反转点。结果发现其中一半的反转点与另一半的反转点是相关的。

　　这些情绪与未来的负面预测偏差有关，偏差则可能来自于RPE coding28、29中的不对称。

　　DeepMind 神经科学研究负责人Matt Botvinick说：“当我们能够证明大脑使用的算法，与我们在人工智能工作中使用的算法类似时，这将增强我们的信心。”

　　而现在的研究发现，他们致力的研究方向，竟然能够给人们研究大脑带来启发，无疑坚定了他们的研究信心。

　　它就是DeepMind在2018年12月问世的AlphaFold，一个用人工智能加速科学发现的系统。

　　DeepMind称，这是自己在科学发现领域的第一个重要里程碑，在生物学的核心挑战之一上取得了重大进展。

(责任编辑：admin)

顶一下

(0)

踩一下

(0)