1.引言近年来,大型语言模型(LLMs)经历了快速的迭代和进化(Anthropic,2024;Google,2024,OpenAL,2024a),逐步缩小了与人工通用智能(AGI)之间的差距。最近,后训练已成为完整训练流程中的一个重要组成部分。它已被证明可以提高推理任务的准确性,与社会价值观保持一致,并适应用户偏好,同时相对于预训练所需的计算资源相对较少。在推理能力方面,OpenA的ol(OpenAI,2024b)系列模型首次通过增加思维链推理过程的长度引入了推理时扩展。这种方法在数学、编码和科学推理等各种推理任务中取得了显著改进。然而,有效的测试时扩展仍然是研究界的一个开放性问题。之前的一些工作探索了各种方法包括基于过程的奖励模型(Lightman等,2023;Uesato等,2022;Wang等,2023)、强化学习(Kumar等,2024)以及蒙特卡洛树搜索和束搜索等搜索算法(Feng等,2024;Trinh等,2024;Xin等,2024)。然而,这些方法都没有达到与OpenAI的o1系列模型相媲美的通用推理性能在本文中,我们迈出了利用纯强化学习(RL)提升语言模型推理能力的第一步。我们的目标是探索大型语言模型(LLMs)在没有监督数据的情况下发展推理能力的潜力,重点关注它们通过纯RL过程的自我进化。具体而言,我们使用DeepSeek-V3-Base作为基础模型,并采用GRPO(Shao等,2024)作为RL框架,以提升模型在推理任务中的表现。在训练过程中,DeepSeek-R1-Zero自然桶现出许多强大且有趣的推理行为。经过数千次RL步骤后,DeepSeek-.Rl-Zero在推理基准测试中展现出卓越的性能。例如,AME2024上的pass@1得分从15.6%提升至71.0%,而在多数投票机制下,得分进一步提高至86.7%,与0 penAI-ol-0912的性能相当。然而,DeepSeek-Rl-Zero遇到了诸如可读性差和语言混合等挑战。为了解决这些问题并进一步提升推理性能,我们引入了DeepSeek-R1,它结合了少量冷启动数据和多阶段训练流程。具体来说,我们首先收集数千条冷启动数据来微调DeepSeek-.V3-Base模型。随后,我们进行类似DeepSeek-Rl-Zero的推理导向强化学习(RL)。在RL过程接近收敛时,我们通过对RL检查点进行拒绝采样,结合来自DeepSeek-V3在写作、事实问答和自我认知等领域的监督数据,创建新的SFT数据,然后重新训练DeepSeek-V3-Base模型。使用新数据微调后,检查点会经历额外的RL过程,考虑所有场景的提示。经过这些步骤,我们获得了称为DeepSeek-R1的检查点,其性能与OpenAI-ol-1217相当。我们进一步探索了从DeepSeek-.R1到更小密集模型的蒸馏过程。以Qwen2.5-32B(Qven,2024b)为基础模型,直接从DeepSeek-.R1进行蒸馏的效果优于在其上应用强化学习。这表明,更大基础模型发现的推理模式对于提升推理能力至关重要。我们开源了蒸馏后的Qwen和Llama(Duby等2024)系列。值得注意的是,我们蒸馏的14B模型大幅超越了当前最先进的开源QQ-32BLPreview-(Qwen,2024a)而蒸馏的32B和70B模型在密集模型的推理基准测试中创下了新纪录3AINLP
暂无评论内容