MtrUjQoOIVL 发表于 2025-2-27 15:54:09

ICLR 2025 | 西湖大学提出闭环扩散控制策略,高效与闭环兼得

<div id="container" data-v-1d7a5742="" data-element="root" contentScore="14538">本文来自西湖大学人工智能系的吴泰霖团队。本文有两位共同第一作者:魏龙是西湖大学人工智能系博士后,冯浩东是西湖大学博士生。通讯作者吴泰霖是西湖大学人工智能系特聘研究员,其领导的人工智能与科学仿真发现实验室主要研究方向为开发生成模型方法并用于科学和工程领域的仿真、设计和控制。
高效闭环控制是复杂系统控制的核心要求。传统控制方法受限于效率与适用性挑战;而新兴的扩散模型虽然表现出色,却难以满足高效闭环控制的要求。西湖大学研究团队最新提出的 CL-DiffPhyCon 框架,通过异步并行去噪技术,在闭环控制要求下,显著提升了控制效率和效果。论文最近被人工智能领域顶级会议 ICLR 2025 接收。


[*]论文标题:CL-DiffPhyCon: Closed-loop Diffusion Control of Complex Physical Systems
[*]论文链接:https://openreview.net/pdf?id=PiHGrTTnvb
[*]代码地址:https://github.com/AI4Science-WestlakeU/CL_DiffPhyCon
一、研究背景

在科学研究、工程实践以及具身智能等诸多领域,系统控制问题都有着广泛的应用。在这些场景中,高效闭环控制是核心性能要求。例如,当机器人在复杂环境中执行任务,必须对周围环境变化做出即时反应。这就需要控制系统能够根据环境实时反馈,迅速调整控制信号,保证每一个动作指令都基于最新的环境状态生成。另外,工业制造、航空航天、能源生产等科学和工程领域的系统控制任务,同样面临着如何实现高效闭环控制的难题。
在过往的研究当中,涌现出了传统控制方法,以及近年来的深度学习、强化学习、模仿学习等众多控制方法。近期的 DiffPhyCon 等研究表明,基于扩散模型 的方法在复杂物理系统控制中表现出色,尤其是对高维、长时间跨度的控制问题具有显著的优势,这主要源自于扩散模型擅长学习高维分布的特性。这类方法从离线收集的轨迹数据中学习一个去噪模型,从噪声开始,利用去噪模型逐步去噪,产生控制信号。此外,基于扩散模型的策略在机器人操作任务中也具有优异的表现 。
然而,现有的扩散控制方法在应用到闭环控制时,会遇到控制效果和效率难以平衡的缺陷。它们的模型窗口内所有物理时间步,都要经历从纯噪声开始的完整去噪采样过程。若每个物理时间窗口都照此采样并将其中的最早控制信号用于控制,虽然能实现闭环控制,却会带来非常高昂的采样成本。而且,这种方式还可能会破坏控制信号的时序一致性,影响整体控制性能。反之,如果为了提高采样效率,每隔若干个物理时间步才进行一次完整采样,又脱离了闭环控制的要求。
虽然近期有研究工作提出在线重新规划策略(RDM),自适应地确定何时重新规划控制序列,但这种策略也不是真正意义上的闭环框架。它们往往需要额外的似然估计计算开销,还依赖额外的超参数。面对不同任务场景,需要多次实验来调试这些超参数,增加了应用难度和不确定性。
二、本文主要贡献

针对现有扩散控制方法在闭环控制中遇到的上述问题,本论文提出了一种基于扩散模型的闭环控制方法 CL-DiffPhyCon,它能够根据环境的实时反馈生成控制信号,实现了高效的闭环控制。该方法的核心思想是将扩散模型中的物理时间步和去噪过程解耦,允许不同的物理时间步呈现不同的噪声水平,从而实现了控制序列的高效闭环生成。论文在 1D Burgers’方程控制和 2D 不可压缩流体控制两个任务上,验证了 CL-DiffPhyCon 的显著结果。
如下图 1 中所示,该方法具有如下优势:

[*]高效采样:CL-DiffPhyCon 通过异步去噪框架,能够显著减少采样过程中的计算成本,提高采样效率。与已有的扩散控制方法相比,CL-DiffPhyCon 能够在更短的时间内生成高质量的控制信号。
[*]闭环控制:CL-DiffPhyCon 实现了闭环控制,能够根据环境的实时反馈不断调整控制策略。相比已有的开环扩散控制方法,提高了控制效果。
[*]加速采样:此外,CL-DiffPhyCon 还能与 DDIM 等扩散模型的加速采样技术结合,在维持控制效果基本不变的前提下,进一步提升控制效率。

图 1:本文的 CL-DiffPhyCon(右图)相较于以往扩散控制方法(左图和中图)的优势。通过采用异步去噪框架,该方法能够实现闭环控制,并显著加快采样过程。其中,H表示扩散模型包含的物理时间窗口长度,DiffPhyCon - h表示每隔h个物理时间步进行一次包含T个去噪步骤的完整采样过程,然后将采样的控制信号序列中的前h个依次用于开环控制。这里没有展示与 DDIM 的结合。
三、问题设置和预备知识

1. 问题设置:
给定初始状态、系统动力学G以及特定的控制目标,本文考虑如下复杂系统的控制问题:

这里,和分别是物理时间步时的系统状态和外部控制信号,轨迹的长度为N。系统动力学G代表系统在外部控制信号下随时间的状态转移规则。G可以是随机性的,存在非零随机噪声;也可以是确定性的,即。为了让问题设置更具一般性,状态的演变只能通过实际测量来观测,即假设G的表达形式不一定可以获得。本文中关注闭环控制,意味着每个时间步的控制信号是从以当前状态为条件的一个概率分布中采样得到的。这区别于开环控制或者规划(planning)方法,即每次规划未来多个时间步的控制信号后,将其依次应用到环境中,并且在此期间不利用环境反馈进行重新规划。
2. 预备知识:DiffPhyCon 简介
DiffPhyCon 是近期发表的一种基于扩散模型的规划(planning)方法。它提前规划一个物理时间窗口(horizon)内所有的控制信号,并依次将其用于系统的控制过程。为了记号方便,引入变量表示第物理时间步系统状态和控制信号的拼接。该方法包含以下过程:

[*]首先离线收集大量的轨迹数据,每条轨迹包括初始状态、控制序列和相应的状态序列。
[*]然后,用这些离线轨迹训练一个去噪步数为T,物理时间窗口为N的扩散模型,并将所有物理时刻的系统状态和控制信号的联合隐变量作为扩散变量。这里在记号中,用下角标表示物理时间或其所处的区间,用括号里的t表示扩散步骤。在扩散过程中,随着t增大,中的噪声程度逐渐增加:不含噪声,为高斯噪声。
[*]在去噪过程(实际控制过程)中,以系统的初始状态为条件,利用训练的扩散模型,在控制目标的梯度引导下,让t从T 降到 0,将高斯噪声逐步去噪为不含噪声的,其中包含控制序列和对应产生的状态序列。
[*]最后,将控制序列逐步输入到环境中,实现对系统的控制。

上述过程中隐藏了一个假设:轨迹长度N 较小,这时H 取值为N。而实际问题中更为常见的情形是N 很大,这导致物理时间窗口为N的扩散模型难以在 GPU 中运行或者物理时间跨度太大导致偏离闭环要求过远。这就需要训练一个时间窗口相对较小(H
页: [1]
查看完整版本: ICLR 2025 | 西湖大学提出闭环扩散控制策略,高效与闭环兼得