融合等离子体在强化学习中的应用

“深度核聚变”是否缩短了实现收支平衡的时间?

4分钟读取
托卡马克聚变反应堆内部的图像,包括等离子体注入和磁控制技术的金属环面

来自DeepMind和瑞士联邦理工学院的科学家们开发了一种控制托卡马克聚变反应堆的强化学习算法,对这种通常以不稳定著称的系统达到了前所未有的控制水平。

DeepMind

一组研究人员DeepMind瑞士联邦理工学院在瑞士洛桑(EPFL),已经使用了一种名为深度强化学习(RL)来控制磁线圈托卡马克装置这是一个用于核聚变研究的甜甜圈形状的反应堆,也是利用核聚变发电的主要候选反应堆之一。托卡马克在强磁场内的热等离子体中产生聚变反应,全部由磁线圈结构控制。虽然人工智能以前曾被用于核聚变研究,如事后分析,但这是第一次被用于直接控制托卡马克。RL在托卡马克控制中的首次实验性应用可能预示着未来人工智能应用的前景,以帮助实现更高的聚变效率。

“我们在这方面还处于早期阶段,”他说马丁Riedmiller他是DeepMind控制团队的负责人,也是这篇新论文的作者之一。他说,在未来,人工智能和聚变研究人员之间的对话可能会导致开发出实现和维持聚变反应的全新方法。

RL算法的工作原理是使用一个反复试验的系统,通过猜测哪些方法可以得到最有效的解决方案。为了训练他们的算法,研究人员将算法暴露在聚变物理的数学模拟中。

强化学习神经网络允许科学家将等离子体“雕刻”成不同的形状,使他们能够更好地研究哪种结构对融合最有效。

他说:“我们用来模拟核聚变反应堆的基础物理模型的实际质量确实有了很大的提高。弗雷德里克Felici他是EPFL的研究员,也是这篇论文的另一位作者。

研究人员使用了一种训练方法actor-critic方法其中,一个神经网络对数据进行评估,以确定它是否产生了高质量的解决方案,而另一个网络则获取这些数据,并用它来控制聚变反应。

在使用模拟环境训练算法后,研究人员用一个实际的托卡马克-可变配置托卡马克(也称为托卡马克)测试了它托卡马克à配置变量或TCV)。首先,研究人员使用传统的控制方法来形成等离子体并确定其位置和电流。然后他们将控制权“移交”给RL系统。因为改变实际的聚变过程可能是危险和破坏性的,所以算法根本没有经过实际反应的训练,只从模拟中接受训练——正如研究人员在他们的论文中写道的那样,这是从训练到现实世界的“零机会”转移。

“非常重要的是,他们能够证明我们能够利用模拟环境建立这个模型并加以应用,而且它在真实的实验中确实有效,”他说克里斯•汉森他是华盛顿大学的高级研究科学家,从事聚变和等离子体科学的研究,没有参与这项研究。“你希望(算法)从第一天起就能发挥作用。”

研究人员最初通过实验来测试该系统,增加等离子体的不稳定性,并使其回到等离子体的初始状态。在这一基本测试之后,研究小组对不同的等离子体配置进行了实验。从本质上讲,他们能够将等离子体“雕刻”成不同的形状,从而更好地研究哪种结构对聚变最有效。该团队创造了更典型的细长椭圆形形状,以及一个绰号为“雪花”配置的形状,以及一个侧面看起来像三角形的形状。他们还首次在反应堆中形成了两个独立的等离子体“液滴”。

瑞士联邦理工学院的实验托卡马克聚变反应堆的3D渲染图瑞士联邦理工学院的实验托卡马克聚变反应堆的剖面图显示了其中复杂的等离子体平衡线圈层。DeepMind

Felici说:“形状对等离子体约束的质量有基本的影响,因此等离子体如何在内部保持热量,以及等离子体的稳定性——在多大程度上容易发生任何不稳定事件。”诸如等离子体逃离磁场的破坏等事件,会中断反应,甚至可能造成损害。

这种基于rl的控制方法比其他融合控制方法更简单,但并不一定更有效。例如,通常控制托卡马克的方法是使用几个独立的控制器串联工作。新方法用一个控制器代替了这个系统。

在未来,研究人员希望能想出方法来模拟和研究不同等离子体配置的内部动力学,而不仅仅是反应堆线圈的磁控制。他们补充说,使用RL也有一些固有的缺点。毕竟,任何深度学习系统都是一个“黑箱”。因为系统得出结论的方式并不明显,所以如果出现问题,就没有明确的方法来知道发生了什么。尽管如此,RL作为一种等离子体控制方法,在实际控制这个臭名昭著的不稳定系统方面表现出明显的优势,这就是为什么研究人员继续表现出如此乐观的态度,以及为什么他们会在最初的成功基础上继续改进。

汉森说:“看到未来的发展真的很令人兴奋。”

该小组的研究结果本月早些时候发表在该杂志上自然

对话(0)
Baidu