中国科学:信息科学第54卷第9期最大化奖励来获得策略和值函数.但在机器人任务中受限于复杂的奖励设计和长时间的环境交互:模型预测控制通过使用环境模型产生对未来策略执行情况的预测,结合策略搜索方法获得当前最优的动作,但依赖于对环境的先验知识和环境模型的泛化能力.近年来,许多研究尝试了大模型技术与上述框架的结合,从而克服现有框架面临的问题[).具体地。在模仿学习中,大语言模型和视觉语言模型能够作为基础策略使智能体利用大模型对环境的理解和泛化能力.同时.大模型对任务的分解能够产生的任务短期目标来降低模仿学习的难度[;在强化学习中,大模型能够根据对任务和场景的理解产生合适奖励函数来引导强化学习中价值函数和策略函数的学习.同时强化学习能够作为大模型的基础策略和人类偏好对齐的工具,引导策略的输出符合人类偏好[网:在模型预测控制的框架下,大模型能够利用从大量训练数据中获取的对物理世界的理解构建环境模型,进而使智能体能够使用环境模型进行交互和策略搜索).此外,视觉生成模型和语言生成模型可以根据任务需求生成机器人交互环境供强化学习算法进行交互,或生成交互数据来扩充特定任务下的专家样本,用于缓解真实机器人任务中普遍存在的数据稀缺问题[20].本文围绕大模型驱动的具身智能,首先介绍相关技术背景,包括具身智能的基本概念,大模型相关技术,以及强化学习、模仿学习、模型预测控制等策略学习框架.随后,从学习范式的角度,将大模型驱动的具身智能算法进行分类,主要包括大模型驱动的环境感知、任务规划、基础策略、奖励函数和数据生成等5个方面.其中,(1)大摸型驱动的环境感知从冗余的多传感器观测中进行特征抽取和信息融合,能够提取对策略学习有用的信息,从而使具身智能学习框架普遍受益;(②)大模型对宏观任务的规划使用大模型的逻辑推理能力对复杂任务进行分解.允许使用灵活的底层学习框架对分解后的任务进行策略学习;(③)大模型驱动的基础策略可以与模仿学习框架进行结合并作为模型学习的初始策略,在使用少量机器人的任务数据微调后,大模型能够将通用的环境理解能力和特定的具身应用场景结合,减少策略训练对机器人数据的需求量并提升策略的泛化能力:(4)大模型驱动的奖励函数可与强化学习算法进行结合,减少机器人场景中人为进行奖励函数设计的难度.降低奖励函数设计对物理先验知识的依赖.克服强化学习算法在机器人任务中面临的稀疏奖励问题:(⑤)大模型驱动的数据生成根据学习框架的不同分为两类:一方面,大模型可作为环境模型生成智能体的未来轨迹预测,与模型预测控制算法和基于模型的强化学习算法相结合进行策略搜索;另一方面,大模型可以生成机器人数据用于具身策略训练,作用于无模型强化学习算法和模仿学习算法,从而缓解机器人任务的数据缺乏问题在对研究现状进行总结和分析的基础上,本文提出了大模型驱动的具身智能研究中存在的5大桃战,主要包括:(1)大模型在特定具身场景中的适应问题.从宏观上看,大模型是广泛意义上的“通才”而在特定具身任务中往往需要能解决该任务的“专才”智能体.如何使用大模型中涌现的通用知识在机器人任务中达到精确的物体操作和稳定的运动控制,仍然是一项长期的挑战.(2)大模型策略和人类偏好的对齐问题.具身任务的策略偏好和大模型中使用人类偏好往往有所不同,例如,面对具身智能规划问题,大语言模型往往趋向于给出多样的、全面的回答,而智能体执行任务需要准确的、可安全执行的指令分解.如何将大模型能力和人类偏好在具身智能任务中进行对齐是一项重要的研究问题(3)具身策略的跨域泛化问题.大模型能够对不同的任务指令进行解析,对多样化的视觉场景进行识别.然而,具身智能同时面临着跨域泛化的难题.如环境参数改变、机器人动力学改变.跨形态学实体的泛化等机器人特有的问题,目前大模型尚不具备直接解决问题的能力.(4)大模型驱动多智能体协作的能力.在解决复杂任务中往往需要多个智能体进行协作,其中涉及到的任务分配、合作博弈、沟通反馈等传统多智能体合作问题在大模型背景下缺乏相关研究,如何使大模型驱动多智能体进行高效协作在未来是重要的研究问题.(⑤)大模型具身策略的决策实时性问题.机器人策略在执行过程中环境2037https://engine.sc.china.com/dov/10.1360/SSI-2024-0076
暂无评论内容