东莞pvc管粘接胶强化学习远不是优，CMU刚刚提出大似然强化学习

机器之心编辑部

在大模型时代，从代码生成到数学理，再到自主规划的 Agent 系统，强化学习几乎成了「后公里」的标准配置。

直觉上，开发者真正想要的其实很简单：让模型有可能生成「正确轨迹」。从概率角度看，这等价于大化正确输出的概率，也就是经典的大似然（Maximum Likelihood）目标。

然而，项来自 CMU、清华大学、浙江大学等研究机构的新工作指出了个颇具颠覆的事实：

现实中广泛使用的强化学习，并没有真正在做大似然优化。严格的理论分析显示，强化学习只是在优化大似然目标的阶近似 —— 距离我们以为的优训练目标，其实还差得很远。

正是基于这观察，研究团队对强化学习的目标函数进行了重新审视，提出了大似然强化学习（Maximum Likelihood Reinforcement Learning）：将基于正确的强化学习重新刻画为个潜变量生成的大似然问题，进步引入族以计量为索引的目标函数，使训练目标能够逐步逼近真正的大似然优化。

展开剩余87

论文标题：Maximum Likelihood Reinforcement Learning 论文链接：https://arxiv.org/abs/2602.02710 项目地址：https://zanette-labs.github.io/MaxRL/ Github 地址：https://github.com/tajwarfahim/maxrl

传统强化学习的「卡脖子」问题

在代码生成、数学理、多步决策这些任务中，我们已经形成了种几乎默认的共识：只要反馈是二值的、过程是不可微的，就用强化学习。

强化学习这套范式，支撑了从 AlphaGo 到大语言模型理能力提升的系列关键进展。

从端到端的角度看，强化学习就是给定个输入，模型隐式地诱出个「成功概率」. 如果不考虑可微约束，自然、也原则的目标，就是大似然。

但论文研究团队发现：基于期望励的强化学习，其实只是在优化大似然目标的阶近似。具体地说，大似然目标在总体层面可以展开为系列以 pass@k 事件为基的项，而标准强化学习只优化了其中的阶项。

简单来说东莞pvc管粘接胶，强化学习并没有真正大化「模型生成正确答案的概率」，而是在优化个与真实似然存在系统偏差的替代目标。

这也解释了个广泛存在却难以言说的现象：强化学习早期进展迅速，但越到后期，能提升越困难。

研究团队针对这新发现，对「基于正确反馈的强化学习」进行了重新刻画，论文的主要贡献如下：

将基于正确的强化学习形式化为个潜变量生成的大似然问题，并证明标准强化学习仅优化了大似然目标的阶近似。提出了族以计量为索引的目标函数，通过对 pass@k 事件进行 Maclaurin 展开，在期望回报与精确大似然之间实现连续插值。出种简单的 on-policy 估计器，其期望梯度与该计量索引的似然近似目标致，这意味着增加采样真正了被优化的目标本身。

大似然：真正改进优化目标

奥力斯 PVC管道管件粘结胶价格联系人：王经理手机：18231788377（微信同号）地址：河北省任丘市北辛庄乡南代河工业区/p>

研究团队认为，大似然估计在有监督学习中表现卓越，为什么不直接在强化学习中实现它？

上节中的观察启示我们：可以构造个随计量变化的目标函数族，逐步引入阶项；随着可用计资源的增加，该目标函数族将逐渐收敛到完整的大似然目标。

论文通过系列，将大似然目标在失败事件面进行麦克劳林展开：

展开式中的大似然梯度很难用有限样本进行估计。

特别是，估计大 k 值的 pass@k 梯度需要越来越多的样本，尤其是在通过率 p 很小的情况下。这种有限样本的困难正是提出大似然强化学习（MaxRL）的动机所在。

研究团队将 MaxRL 定义为类强化学习法，它们显式地以大似然为目标，而不是以通过率为目标，同时在有限采样和不可微生成的条件下仍然可实现。下面我们考虑种实现该目标的原则法。

考虑通过将麦克劳林展开式截断为有限阶来近似大似然目标，然后估计该目标。对于截断别 T ∈N，我们将固定输入 x 的截断大似然目标定义为：

对其求得到截断的总体梯度：

这定义了族目标函数：T = 1 为强化学习，T → ∞ 为大似然，中间的 T 值则在两者之间插值。因此，万能胶生产厂家截断别 T 直接控制了有助于学习的正确事件的阶数。随着在 rollout 面消耗多的计量，对阶梯度的估计变得可行。

换句话说： MaxRL 提供了个原则框架，用于通过增加计量来换取对大似然目标保真度的近似。

上述公式已经给出了种可行的偏估计思路：利用 pass@k 梯度估计器，对有限数中的每项分别进行近似。在这策略下，任何对 pass@k 估计器的改进，都会直接转化为对截断大似然目标的优梯度估计。

不过，在本篇论文中，研究者采取了条不同的路径，将带来为简洁的估计器形式，同时也提供了个新的理解视角。

大似然目标的梯度可以写成如下的条件期望形式：

该定理表明，大似然梯度等价于仅对成功轨迹的梯度进行平均。这解释为构造具体的梯度估计器提供了直接途径：只需用采样得到的成功轨迹，对上述条件期望进行样本平均即可。

其核心洞见在于：大似然目标的梯度可以表示为在「成功条件分布」下的期望。

因此，本文采用了种简单的策略：从非条件化的策略分布进行采样，但只对成功轨迹进行平均，得到了强化学习风格的估计器，其具备随着 rollout 数的增加，对大似然梯度的近似将不断的特。

换言之，在 MaxRL 框架下，额外的计资源不仅了估计质量，直接改进了被优化的目标本身。

令人惊讶的率进步

在实验中，这改变带来了远预期的收益。研究团队在多个模型规模和多类任务上，对 MaxRL 进行了系统评估，结果显示：MaxRL 在能与计率的权衡上均稳定地优于现有强化学习法。

实验结果直观展示了 MaxRL 在训练率上的优势。在相同训练步数下，MaxRL 能提升明显快，并且随着 rollout 数的增加，MaxRL 持续受益。

这种优势并不只体现在训练阶段，相较于使用 GRPO 训练的模型，MaxRL 测试时的 scaling 率可提升 20 倍。

在迷宫任务上，论测试时的采样预 k 取何值，随着训练 rollouts 的增加，MaxRL 都能持续降低 −log (Pass@k)，而 GRPO 与 RLOO 的改进幅度则明显早趋于平缓。这结果直观地展示了 MaxRL 在训练阶段优的能–率权衡。

比较在不同 pass@k 设置下各法随训练中采样计增加时的优化趋势，可以看到，对于 GRPO 与 RLOO，曲线在早期下降后迅速变平，说明额外采样主要用于降低噪声；而 MaxRL 在不同 k 值下均保持持续下降，动模型不断逼近个接近大似然的优化目标。

在大规模设置下，MaxRL 的优势依然保持稳定。这表明，MaxRL 所带来的改进并非依赖于特定规模或参数设置，当训练规模扩大时，MaxRL 并未出现收益递减过快或优势消失的现象。

进步的实验结果表明，MaxRL 的优势并不依赖于过于理想化的实验条件，即使在反馈存在噪声或验证信号并非可靠的设置下，MaxRL 仍然能够保持相对稳定的能优势。

总体来看，MaxRL 为不可微、基于采样的学习问题提供了种为入的解法。它通过个随计量自然扩展的目标框架，系统地逼近真正的似然优化。

当优化目标本身可以随力演进、逐步逼近大似然，强化学习究竟会成为通往通用智能的长期答案，还是只是通往下个训练范式的过渡案？

多信息东莞pvc管粘接胶，请参阅原论文。

东莞pvc管粘接胶强化学习远不是优，CMU刚刚提出大似然强化学习

电话咨询

联系奥力斯

任丘市奥力斯涂料厂

东莞pvc管粘接胶 强化学习远不是优，CMU刚刚提出大似然强化学习

电话咨询

联系奥力斯

任丘市奥力斯涂料厂

东莞pvc管粘接胶强化学习远不是优，CMU刚刚提出大似然强化学习