正在利用 PPO 或 GRPO 进行的初步尝试中,研究者察看到了熵解体现象:跟着锻炼的进行,策略的熵敏捷下降(如图 2b)。某些组的采样响应凡是几乎不异。这表白无限的摸索和晚期简直定性策略会障碍扩展过程。
Allen AI 研究者 Nathan Lambert 总结了 DAPO 对 GRPO 的改良,包罗两个分歧的裁剪超参数、动态采样、token 层面的策略梯度丧失、过长励塑制。
基于 Qwen-32B 根本模子,该团队进行了一系列尝试,验证了新提出的 DAPO 算法的无效性和劣势。这里我们略过尝试细节,沉点来看看尝试成果。
如图 4a 和图 4b 所示,样本级丧失计较因为无法无效赏罚长样本中的不良模式,会导致熵和响应长度的不健康增加。
KL 赏罚项的感化是调理正在线策略和冻结参考策略之间的偏离环境。正在 RLHF 场景中,RL 的方针是正在不偏离初始模子太远的环境下调整模子行为。然而,正在锻炼长 CoT 推理模子时,模子分布可能会取初始模子有显著差别,因而这种是不需要的。因而,正在 DAPO 中,KL 项被解除正在外。
下面将从 PPO 到 GRPO 再到 DAPO 逐渐引见,看看这个新的强化进修算法事实是若何的。
至于 token 级丧失,虽然它带来的机能提拔较少,但该团队发觉它可加强锻炼不变性并使长度添加得更健康。
当某些提醒的精确度等于 1 时,现有的 RL 算法就会呈现梯度递减问题。按照经验,精确率等于 1 的样本数量会继续添加,如图 3b 所示。这意味着每批样本中的无效提醒次数会不竭削减,从而导致梯度方差增大,了模子锻炼的梯度信号。
为此,研究者进行过度采样,过滤掉等式 11 中所示精度等于 1 和 0 的提醒语,保留批次中所有具有无效梯度的提醒语,并连结分歧的提醒语数量。正在锻炼之前不竭采样,曲到批次中全数都是精确率既不等于 0 也不等于 1 的样本。
正在 RL 锻炼过程中,研究者察看到一个风趣的现象:Actor 模子的推理模式会跟着时间的推移而动态演化。具体来说,算法不只强化了有帮于准确处理问题的现有推理模式,还逐步发生了最后不存正在的全新推理模式。这一发觉了 RL 算法的顺应性和摸索能力,并为模子的进修机制供给了新的看法。
起首,对于高质量的长样本来说,这种影响会障碍模子进修此中取推理相关的模式的能力。其次,如和反复词语。
锻炼过程中的励动态:这一曲是强化进修中至关主要的监测目标之一,如图 7b 所示。正在这里的大大都尝试中,励添加的趋向相对不变,不会由于尝试设置的调整而呈现大幅波动或下降。这表白,正在给定靠得住励信号的环境下,言语模子能够稳健地拟合锻炼集的分布。然而,该团队发觉,正在锻炼集上的最终励往往取正在验证集上的精确度相关性不大,这表白对锻炼集存正在过拟合现象。
PPO 引入了裁剪式替代方针(clipped surrogate objective)来施行策略优化。通过利用裁剪将策略更新正在先前策略的近端区域内,PPO 能够让锻炼不变并提高样本效率。具体而言,PPO 更新策略的体例是最大化以下方针?。
事明,这是激活根本模子推理能力的无效方式,这也正在多个范畴获得了证明,包罗从动证明、计较机编程和数学竞赛。
DeepSeek 提出的 GRPO 能够极大提拔 LLM 的强化进修效率,不外其论文中似乎还贫乏一些环节细节,让人难以复现出大规模和工业级的强化进修系统。
为了研究励噪声的影响,研究者起首使用了超长过滤策略,以截断样本的丧失。如图 5 所示,这种方式大大不变了锻炼并提高了机能。
针对这一问题,研究者提出了 Clip-Higher 策略。对主要度采样率进行剪辑是 PPO-Clip 中的一种策略,用于信赖区域并加强 RL 的不变性。上剪辑能够策略的摸索。正在这种环境下,提高「操纵 token」的概率要比提高不成能的「摸索 token」的概率容易得多。
AIR和字节结合SIA Lab发布了开源SOTA强化进修系统DAPO,可提拔LLM强化进修效率。
此外,他们还提出了「Soft Overlong Punishment」(等式 13),这是一种长度赏罚机制,旨正在塑制截断样本的励。具体来说,当响应长度跨越预定义的最大值时,研究者会定义一个赏罚区间。正在这个区间内,响应越长,遭到的赏罚就越大。这种赏罚会添加到基于法则的原始准确性励中,从而向模子发出信号,避免过长的响应。
30 分的成就远低于DeepSeek的强化进修(47 分)。该团队阐发发觉,原生版 GRPO 面对着几大环节问题,好比熵解体、励乐音和锻炼不不变。现实上,该团队暗示,良多研究团队正在复现 DeepSeek 的成果时也碰到了雷同的难题。他们暗示:「这表白 R1 论文中可能省略了开辟工业级、大规模且可沉现的强化进修系统所需的环节锻炼细节。」。
如图 1 所示,能够看到 DAPO 锻炼的 Qwen2。5-32B 正在 AIME 2024 基准上的机能提拔环境。跟着锻炼步数增加,模子精确度从 0% 稳步升至了 50%。需要沉点指出:告竣这一机能所利用的步数仅为 DeepSeek-R1-Zero-Qwen-32B 所需步数的一半。
Actor 模子的熵和生成概率:这取模子的摸索能力相关,同时也是尝试中亲近的环节目标。曲不雅地讲,模子的熵需要连结正在恰当的范畴内。过低的熵暗示概率分布过于锋利,这会导致摸索能力。相反,例如乱码和反复生成。对于生成概率,环境恰好相反。如前所示,通过使用 Clip-Higher 策略,能够无效地处理熵解体的问题。正在后续的尝试中,该团队还发觉连结熵迟缓上升的趋向有益于模子提拔机能,如图 7c 和图 7d 所示。
5。DAPO算法通过Clip-Higher策略、动态采样、token级策略梯度丧失等方决这些问题,提拔模子机能。
研究者察看到,因为所有样本正在丧失计较中的权沉不异,因而长答复中的 token 对总体丧失的贡献可能会不成比例地降低,这可能会导致两种晦气影响。
表 1 展现了新方式中每种锻炼手艺的贡献。看得出来,每种手艺都对精确度的增加有所贡献。能够看到,原生 GRPO 只能让 Qwen2。5-32B 根本模子的精确度达到 30%。
励模子的利用凡是会遭到励 hacking 问题的影响。做为替代,该团队间接利用可验证使命的最终精确率做为成果励,计较法则如下!
生成响应的长度:该目标取锻炼不变性和机能亲近相关。如图 7a 所示。长度的添加可为模子供给更大的摸索空间,答应采样更复杂的推理行为并通过锻炼逐步强化。但需要留意的是,长度正在锻炼过程中并不老是连结持续的上升趋向。正在一些相当长的期间内,它能够停畅以至下降。凡是的做法是将长度取验证精确度连系起来做为评估尝试能否正正在恶化的目标。