第一个中间
栏目:专题报道 发布时间:2025-07-02 10:33
最近,上海Chuangzhi大学和上海Jiotong University的论文研究论文引起了人们对人工智能领域的广泛关注。本文深入探讨了不同基本语言模型家族(例如羊驼和Qwen)在增强学习(RL)培训(RL)培训中不同表现背后的原因,并提出了创新的中期训练策略,成功地将Llama模型转化为一种推理基本模型,该模型高度适应于强大的范围内,可以很好地范围范围内的范围,并提供了一种良好的范围,并提供了良好的范围,并提供了良好的质量基础,并且QWEN模型之间的良好基础构成了QWEN的主要基础,并且Qwen and arl sevilent of the Qwen模型之间的良好基础模型为了开发AI系统中的下一个生成理性能力。报纸发行后,它引起了社交媒体的广泛关注。 Zhao是Meta AI研究的科学家和一位助理教授Umass Amherst,这是第一个赞美:“学术如何给人留下了深刻的印象只有许多中期训练的谜团才想到实验室,以弥补骆驼和Qwen之间的RL差距。实验室指出,他们的独立实验还证明,只要使用数据促进,任何模型都可以显着改善RLVR或RL的性能,进一步支持该程序,此外,Megamath-Web-Pro-Max-Max数据集与Octothinker一起释放并获得了OctoThinker释放并获得了众多的colul colul uncul, THU,HKUST以及众所周知的科学和商业科学机构,例如Apple,Microsoft,Tii,Monshot,Datologyi,AI2,IBM,Cohere,Cohere,Tencent等。NK:https://arxiv.org/abs/2506.20512代码存储库:https://github.com/gair-nlp/gair-nlp/octothinker开放模型模型数据:https:// https:// https:// h h h h h hh之色ugg uggingface.co/octothinker's Research Team成功地改变了lllama的模型,以更高的模型和高级模型,以下是一个高级的模型。数学推理中的QWEN。研究背景在语言模型中引入大规模加固(RL)研究已大大提高了复杂推理的能力,尤其是在诸如解决数学中的竞争问题之类的困难活动中。但是,最近的研究表明了一系列有趣的现象:(i)QWEN系列的主要模型几乎显示出“魔术” RL的改善; (ii)AHA的主要时刻似乎主要出现在数学场景中; (iii)不同的评估设置通常表明偏见,影响RL有效性的酌处权; 。同时,团队和其他研究人员发现,尽管Qwen在RL的扩展,Llama经常提供答案并提前重复输出,因此很难获得相同的绩效收益。这一系列比较带来了一个基本的科学问题:哪些基本特征决定了模型在RL缩放中的灵活性?中期训练可以使用ASA控制的干预措施来弥合不同RL基础之间的性能差距吗?为了探索这些问题,该团队在不保留记录其研究过程的详细技术报告的情况下提供了提供的资源数据解决方案,以及基于Llama完全增强的性能Octothinker的新型模型。基本问题:为什么RL练习经常在骆驼中失败?当Qwen的QWEN系列模型通过研究增强(例如PPO,GRPO)实现了数学识别任务的显着改善时,具有相同大小的Llama模型通常落入重复输出的困境或事先提供答案的困境中。如图所示在下面的图中,当直接训练Llama系列模型进行增强研究时,Pthey将能够找到一系列问题,例如奖励和有限的性能提高。深入探索:通过受控的中训练训练探索主要因素。研究小组在Llama-3.2-3B(每个实验20B令牌)上进行了大量受控的中训练实验,然后进行了强化学习训练以观察动态练习。发现高质量数学语料库重要性的中等训练技术:研究发现,与诸如Fenemath-4plus这样的现有继任者相比,高质量的数学语料库(例如Megamath-Web-Pro)可以显着改善RL的基本模型和性能。例如,当使用Megamath-Web-Pro时,模型在RL的任务中的执行效果比Finemath-4plus使用更好。获取QA格式数据和指令数据:基于高质量的预训练语料库,增加QA-样式数据(尤其是长链理解示例)可以增强RL的影响,同时引入少量指令数据可能会解锁QA数据的潜在。研究发现,教学数据将有助于建模更好地了解任务要求,从而更好地执行RL阶段。滥用推理的双叶片效应:尽管推理可以改善推理的深度,但它也可能导致模型长度响应和不稳定的RL训练的长度问题,这突出了数据格式的重要性。例如,纳塔金(Natagin)在处理长链概念数据时,模型在训练过程中易受过量产出或性能波动的实验。因此,研究小组解决了通过以下步骤解决培训缺乏培训问题的问题:设计说明以增强及时模板,抑制双输出(与主模板的错误率↓37%相比),设置渐进的最大值响应响应的长度 - 理解这项培训的发展即使这些收益明显反映在基本模型的综述中。它表明,中间训练阶段的扩展对于提高模型的最终RL性能具有重要意义。自我建造的高质量数学语料库。在准备语料库时,团队还发现了另一个问题,尤其是缺乏开放质量的语料库资源。以训练前的语料为例,最高质量的数学语料库Megamath-Web-Pro目前包含小于20B令牌,但是如果混合质量略低的预定语料库,则在RL培训中易受到不稳定性的影响。为了支持有关消融和中期培训的大规模研究,研究团队创建了Megamath-Web-Pro-Max。该语料库通过良好的分类回忆起Megamath-Web的文档,并使用大型语言模型进一步完善了构造。具体而言,RE搜索团队从Megamath-Web语料库中结合了文档年度,随机对数百万个文档进行了同样平等的样品,并使用Llama-3.1-70B结构进行了标记。每个文档在数学研究中的实用性将每个文档从0分为5,并且标记过程使用特定的评分技巧(请参阅纸面上的附录)。研究团队使用启发式方法来从模型评论中提取分数:以下3个标记的文档标记为负面示例,并且分数为3及以上的文档被认为是积极的例子。研究小组注意到,现有的分类(例如Inemath分类器)非常敏感到数据收集过程中的文本提取器。因此,研究小组培训了自己的分类,并选择了更好的FastText asclassifier。与Megamath的发现,头皮团队发现,预处理措施对于记住表现至关重要。预科的过程NG研究团队包括将文本转换为小,过滤长词,并删除线路断裂和过多的非al骨字符。如下图所示,根据Megamath-Web提出的年度数据比较设置,研究小组在各种召回阈值下回顾了记忆语料库的质量。召回阈值决定了数据质量和数量之间的权衡:较高的阈值(如0.9)会导致更高的数据质量,但仍然更少的令牌将仍然存在。最终,研究小组选择0.4作为召回门槛。图:根据通常的爬行年份(不同的fastText阈值),将研究团队重新录制的数据与Megamath-W数据质量E质量进行比较。考虑到许多文档都有诸如高噪音和结构差的问题,研究团队使用Llama-3.1-70B-Instruktura来完善文本,以及从Megamath-Web-Prro借来的即时设计。最后建造的巨型H-Web-Pro-Max数据集包含近5.5倍的Megamath-Web-Prro代币数量。预训练期间的经验分析表明,Megamath-Web-Pro-Max有可能在维持数据质量的同时成为大型中期培训的主要语料库。此外,研究团队还试图通过从标准数学问题数据集引入长链思考数据来扩大种子的积极例子,以提高分类的能力,以记住与推理有关的内容。但是,这种方法最终仅维护约20B令牌,研究小组认为这是不足的,因此没有采用。
服务热线
400-123-4567