搜索
当前所在位置:首页 >> 专集

GRPO在《时空谜题》中击败o1、o3

发布时间:2025-07-12 21:24:37 作者:sfgw 点击:1 【 字体:

近日,时空海外大模型产物平台 OpenPipe 上发布了一项研究,谜题阐述其如何通过 GRPO 在重度推理游戏《时空谜题》中超越R1、中击o1、时空o3-mini 等模型。谜题研究作者分别为来自 Ender Research 的中击高校群聊截图外泄未删减强化学习研究员 Brad Hilton 和 OpenPipe 的创始人 Kyle Corbitt。

他们的时空研究表示,他们不仅将模型与 Sonnet 3.7 的谜题差距缩小至个位百分比,同时实现超过100倍的中击推理成本优化。

报告中还分享了任务设计与超参数调整的时空经验,并公开了基于torchtune框架构建的谜题完整训练方案。

一、中击背景介绍

自OpenAI去年发布突破性的时空o系列推理模型以来,采用强化学习(RL)训练的谜题大型语言模型(LLMs)迎来爆发式增长。谷歌DeepMind、中击阿里巴巴、DeepSeek、Anthropic相继推出支持长"思维链"(CoT)推理的先进模型,在可验证问题上实施强化学习训练,让传统的基准测试逐渐逼近性能天花板。

尽管取得显著进展,逻辑演绎能力仍是顶尖模型的阿喀琉斯之踵。当前LLMs普遍存在三大缺陷:

难以稳定追踪所有相关细节

无法保持逻辑严密的情侣宾馆按摩服务推演过程

多步衔接可靠性不足

即便顶尖模型生成10-100倍长度的输出,仍然会频现人类可轻易识别的低级错误。

带着好奇,我们开启了一系列的探索:小型开源模型能否借助前沿强化学习工艺,突破演绎推理的边疆?

我们首先从性能较弱的模型出发,在一项全新的推理任务上对其进行迭代训练。随着时间的推移,我们明显观察到它们的推理能力有所提升,最终达到甚至超越了一些先进的专有模型 。

二、基准测试框架

为了开展我们的实验,我们首先必须确定一个具有明确可验证答案且具有挑战性的推理任务。碰巧其中一位作者之前创建了一个完全符合要求的谜题集——“时空谜题”(Temporal Clue)。除了满足事实真相清晰这一标准外,还可以按照需要创建新谜题。

“时空谜题”灵感源自热门桌游 Clue(Cluedo),在该游戏中,玩家们竞相揭开究竟是谁在Boddy先生的豪宅中谋杀了他。“时空谜题”将这款游戏转变为一个单人逻辑谜题,它不仅涵盖标准要素 —— 凶手是谁、用什么凶器、在哪作案,还增添了两个维度:作案时间和作案动机。谜题是随机生成的,游戏使用了 OR - Tools 的 CP - SAT 求解器进行线索挑选。

在某个阴冷的冬夜,神秘富豪John Q. Boddy先生为他的密友举办了一场小型的奢华晚宴。然而,这场晚宴以悲剧收场,Boddy先生于清晨时分被发现死在都铎庄园的一个房间里。以下是被认定为嫌疑人的相关利益人员……

为了明确这项推理任务的最佳水平,我们对一些火爆的推理模型进行了基准测试 ,包括DeepSeek R1、OpenAI的o1和o3 - mini以及Anthropic的Claude Sonnet 3.7。此外,我们还对14B和32B的Qwen模型进行了基准测试,这是我们最终结果的预览:

GRPO在《时空谜题》中击败o1、o3-mini和R1

在这些基准测试中,我们发现Claude Sonnet 3.7在设定6.4万个token的情况下表现最佳,DeepSeek R1的表现几乎与OpenAI的o1和o3 - mini不相上下。然而,未经调优的Qwen 2.5 Instruct模型在相比之下就稍显逊色了。

一个关键问题是:我们能否将这些较小型的开放权重模型训练到前沿水平的表现?答案是肯定的,只要用对方法。

三、训练

为了训练出一个具有前沿水平的推理模型,我们采用了强化学习方法。我们首先让大语言模型针对每个谜题生成多个回复,以此探索问题的各种可能性,从而引导它们学习。对得出正确答案的推理过程给予正向强化,而对误导模型的推理过程则进行惩罚。

在众多强化学习的方法中,我们选用了DeepSeek模型的GRPO运算规则。与PPO等传统方法相比,GRPO不仅表现出色,还简化了训练过程。

从宏观层面来看,我们的训练遵循以下几个基本步骤:

针对谜题任务生成模型回复

对回复进行评分,并为每组聊天回复估算优势值

利用这些优势值估算结果引导的裁剪策略梯度对模型进行微调

用新的谜题和模型的最新版本重复上述步骤,直至达到最佳性能

在生成回复环节,我们使用了热门的vLLM推理引擎,并对参数选择进行了调优。我们发现,向vLLM发送过多请求会导致正在处理的请求被抢占。为解决这一问题,我们使用了一个信号量来限制请求数量,该信号量经过调优,能够在尽量减少换出的同时保持较高的键值缓存利用率。

采样完成后,我们使用 HuggingFace Transformers AutoTokenizer 对回复进行处理。它的聊天模板功能可将消息对象渲染为提示字符串,其中包含一个助手掩码,用于确定哪些标记是由大语言模型生成的。我们发现这些模型在其默认模板中缺少必要的 “生成” 标签,于是在token步骤中对模板进行了修改。最终得到的助手掩码被纳入用于调优的张量字典中,用以标识哪些位置需要进行损失计算。

在获得助手掩码后,我们对信息进行打包以便调优。除了在每个打包序列中包含多个提示和回复之外,我们还识别出共享的提示标记,并为每个标记分配一个父ID,同时附上标准的组ID。对于像 “时空谜题” 这类平均每个谜题超过1000个标记的任务,我们针对每个任务生成多个回复并高效打包张量,显著减少了冗余。一旦将所有必要信息打包完毕,我们就能以二维形式直观呈现训练信息集,每一行都是一个可能包含多个提示和回复的标记序列 。

有了信息后,我们开始调优。模型已经完成了预训练和指令微调,具备一定的智能水平。虽然它们还无法稳定地解决谜题,但是偶尔也能成功。通过提高正确推理的概率,我们逐步引导模型朝着 “神探” 的水平迈进。对于计算损失和调整权重,我们采用了策略梯度的方法。

在训练过程中,我们使用了由 PyTorch 团队提供的Torchtune库,其中包括Llama、Gemma、Phi等热门模型。我们在这个项目中除了使用Qwen模型,也用80亿参数和700亿参数的Llama模型进行了实验。Torchtune还提供了一些节省内存和提升性能的工具,包括:

激活检查点(Activation Checkpointing)

激活卸载(Activation Offloading)

量化(Quantization)

参数高效微调(PEFT),例如LoRA

此外,Torchtune支持多设备和多节点训练,还可以结合全分片信息并行(FSDP)和张量并行(TP)训练。他们提供了十多个训练配方,鼓励客户复制并根据自己的用例进行定制。他们完整微调配方的修改版支持以下功能:

多设备和单设备训练

参考模型加载和权重交换以计算KL散度

使用组和父ID进行高级因果掩码计算

GRPO损失集成和组件日志记录

强化学习训练过程涉及超参数的选择。在训练模型期间,我们对各种配置进行了测试,最终确定了以下参数:

模型:Qwen 2.5 Instruct 140亿参数版和320亿参数版

每次迭代的任务数:32

每个任务每次迭代的样本数:50

每次迭代的总样本数:32×50 = 1600

学习率:6×10⁻⁶

微批次大小:对于140亿参数模型为4个序列,对于320亿参数模型为8个序列

批次大小:可变,取决于序列数量

批次大小之所以可变,是因为训练过程中回复长度不同。每次迭代的序列打包效率会有波动,优势为零的回复会被丢弃。在一次实验中,我们尝试将学习率与批次大小成反比动态调整,但这会导致小批次的学习率过高。经过上限处理后的版本与使用恒定学习率相比没有明显差异,但调整批次大小和学习率仍是未来值得探索的方向。

我们还进行了简短的实验,在每次迭代的任务数和每个任务的样本数之间进行反向调整(即一个增加另一个减少),同时保持每次迭代的总样本数大致相等。在较短的训练周期内,这些变化没有产生明显差异,这表明训练配方对任务数量与单任务样本量之间的不同配比具有强鲁棒性。

四、结果

经过100+次迭代训练,我们的模型成功达到前沿级推理水平。

我们的模型能够在准确率下降之前迅速改进。最佳状态下,140亿参数、1.6万个token的模型已接近于ClaudeSonnet 3.7的性能。320亿参数、6.4万个token的模型更是几乎达到了Sonnet的结果。

在训练期间,性能提升遵循幂律规律,在图表上形成线性关系(在恶化之前)。

下一步,我们将探索多样化回应的方法,逐步构建能力的方法,或者能够激励出彻底探索的方法。

此外,我们注意到在训练期间输出长度呈现出有趣的规律。最初回复变长,随后趋于稳定,在训练接近尾声时出现分化,其中140亿参数模型的回复变得更长,而320亿参数模型的回复长度则缩短(尤其是在达到最佳性能之后)。

为了从定性角度评估逻辑推理能力的提升,我们让最先进的模型Claude Sonnet 3.7对Qwen 32B模型所做出的推论进行识别,并评估其合理性。Sonnet从基础模型中识别出6个推论,除了一个被判定为正确外,其余均被判定为错误。相反,从经过训练的模型中识别出7个推论,除了一个错误之外,其余均被判定为逻辑合理。

最后,在假设按需部署具有足够吞吐量的情况下,我们根据Fireworks AI的无支持器定价层级估算了Qwen模型的成本。我们绘制了一张准确性和推理成本的关系图,并发现在未经调优的模型中存在一条清晰的线性帕累托前沿线,极大地改善了成本与准确性之间的权衡关系。

五、结语

在我们的调查研究中,我们探索了较小型的开源语言模型能否通过强化学习实现前沿水平的演绎推理能力。对时间线索谜题进行训练时,我们使用了超参数和GRPO方法来训练Qwen 14B和32B模型,显著低提升了性能。这些改进使开源模型在推理性能方面达到了最前沿的水平,并大幅度低降低了成本。我们的研究结果凸显了强化学习在高效训练开源模型处理复杂演绎任务方面的巨大潜力。

此外,最后还有一个惊喜。我们发现,仅需16个训练样本就能实现高达10 - 15% 的性能提升,这意味着我们无需大量信息就能进行推理。

原文链接:https://openpipe.ai/blog/using-grpo-to-beat-o1-o3-mini-and-r1-on-temporal-clue

雷峰网(公众号:雷峰网)

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

GRPO在《时空谜题》中击败o1、o3-mini和R1

阅读全文
相关推荐

吉祥航空通报一航班发动机启动阶段出现机械故障

吉祥航空通报一航班发动机启动阶段出现机械故障
7月10日,@吉祥航空 发布关于7月9日HO1860航班情况的说明:7月9日,公司广州飞往上海浦东的HO1860航班未能按时起飞,在发动机启动阶段出现机械故障,机组按程序处置滑回航站楼执行排故工作,为 ...

中国大模型数量占全球超1/3;AI模型训练成本暴涨,2027年或达1000亿美元;Kimi发布官方浏览器插件丨AI情报局

中国大模型数量占全球超1/3;AI模型训练成本暴涨,2027年或达1000亿美元;Kimi发布官方浏览器插件丨AI情报局
融资快报Quantum Rise 获 1500 万美元种子资金:Quantum Rise 以所谓的“咨询 2.0”模式将 AI 部署到公司中,以自动化工作流程、提供路线图和量身定制的 AI 解决方案, ...

AI短剧公司获百度投资;苹果AI将登VisionPro,今秋或将接入谷歌Gemini;上海医院用AI自动生成病历丨AI情报局

AI短剧公司获百度投资;苹果AI将登VisionPro,今秋或将接入谷歌Gemini;上海医院用AI自动生成病历丨AI情报局
融资快报CreativeFitting获百度PreA+轮融资:CreativeFitting井英科技)推出全球首款AI短剧APP,Reel.AI在海外市场正式发布,并迅速登上娱乐应用畅销榜,主创团队获 ...

AI短剧公司获百度投资;苹果AI将登VisionPro,今秋或将接入谷歌Gemini;上海医院用AI自动生成病历丨AI情报局

AI短剧公司获百度投资;苹果AI将登VisionPro,今秋或将接入谷歌Gemini;上海医院用AI自动生成病历丨AI情报局
融资快报CreativeFitting获百度PreA+轮融资:CreativeFitting井英科技)推出全球首款AI短剧APP,Reel.AI在海外市场正式发布,并迅速登上娱乐应用畅销榜,主创团队获 ...

周伯文:下一代大模型 OS,工具和语言缺一不可丨GAIR 2023

周伯文:下一代大模型 OS,工具和语言缺一不可丨GAIR 2023
作者丨孙溥茜编辑丨陈彩娴编者按:2023 年 8 月14日,第七届 GAIR 全球人工智能与机器人大会在新加坡乌节大酒店正式开幕。论坛由 GAIR 研究院、雷峰网、世界科技出版社、科特勒咨询集团联合主 ...

炒菜机器人公司橡鹿科技再获京东近 2 亿元投资;袁进辉公司硅基流动新增两位联创,获哈勃智谱 AI 等入股丨AI情报局

炒菜机器人公司橡鹿科技再获京东近 2 亿元投资;袁进辉公司硅基流动新增两位联创,获哈勃智谱 AI 等入股丨AI情报局
今日融资快报人工智能初创公司Cohere融资5亿美元,寻求与OpenAI竞争人工智能开发商 Cohere 在新一轮融资中筹集了 5 亿美元,使其成为该领域全球最有价值的初创公司之一,这也增强了这家加拿 ...

黑神话手办炒到6000,AI自己做一个可行?

黑神话手办炒到6000,AI自己做一个可行?
图:B站up主 黑板Black这两天不是在玩黑神话就是在刷黑神话的视频,而本人一直以来的怨念就是没抢到典藏版。这个怨念在刷到典藏版手办的开箱视频后达到了极致,而当我试图某鱼圆梦的时候,打开一看,好家伙 ...

发布三个月,豆包大模型综合能力提升20.3%,应用落地再提速

发布三个月,豆包大模型综合能力提升20.3%,应用落地再提速
8月21日,火山引擎AI创新巡展在来到上海。此次巡展会,火山引擎发布了豆包大模型的一系列产品升级,并携手多点 DMALL 成立零售大模型生态联盟。火山引擎总裁谭待表示,较3个月前,最新版豆包大语言模型 ...

谁将替代 Transformer?

谁将替代 Transformer?
【雷峰网(公众号:雷峰网)】2017年谷歌发表的论文《Attention Is All You Need》成为当下人工智能的一篇圣经,此后席卷全球的人工智能热潮都可以直接追溯到 Transformer ...

早鸟倒计时3天丨院士领衔、重磅嘉宾云集!中国大模型大会(CLM2024)诚邀您共同探索中国大模型之路!详细日程公开

早鸟倒计时3天丨院士领衔、重磅嘉宾云集!中国大模型大会(CLM2024)诚邀您共同探索中国大模型之路!详细日程公开
近年来,以GPTs为代表的大语言模型引起了全球各界的广泛关注,与之相关的新研究、新产品竞相绽放,颠覆了人们对于人工智能的理解,大模型技术正在引领科技创新的新潮流!为推动大语言模型以及基于大模型的自然语 ...

“知乎AI先行者沙龙”深圳站:探航大模型应用新风口

“知乎AI先行者沙龙”深圳站:探航大模型应用新风口
7月14日,第三届“知乎AI先行者沙龙”在深圳举行。知乎邀请众多AI行业从业者、专家、学者齐聚一堂,用最前沿的观点和最专业的思考,共同探讨大模型应用的新风口。本届沙龙以“探航”为主题,知乎高级副总裁、 ...

英伟达 Jim Fan:复刻NLP的成功路,用通用模型开启具身智能的GPT

英伟达 Jim Fan:复刻NLP的成功路,用通用模型开启具身智能的GPT
还记得那只“骑”瑜伽球的机械狗吗?过马路,走草地都稳稳当当,就算瑜伽球被放气也能如履平地。怪不得之前有网友惊叹:机器人马上就要统治世界了吧?赋予这只 Unitree Go1 的四足机器人能骑瑜伽球能力 ...
返回顶部