开云体育阐明问题和圭臬代码自动生成测试用例-开云官网kaiyun皇马赞助商 (中国)官方网站登录入口

发布日期：2025-05-28 09:37 点击次数：139

北京交通大学商榷团队悄默声推出了一版 o1开云体育，而况整个源代码、精选数据集以及生息模子王人开源！名为O1-CODER，专注于编码任务。团队以为编码是一个需要 System-2 想维款式的典型任务，波及严慎、逻辑、一步步的问题处治经过。而他们的战术是顽强化学习（RL）与蒙特卡洛树搜索（MCTS）相纠合，让模子不详束缚生成推理数据，教诲其 System-2 能力。执行中，团队有以下几点要道发现：当推理正确时，基于伪代码的推理显赫教诲了代码生成质料将监督微调（SFT）与径直偏好优化（

北京交通大学商榷团队悄默声推出了一版 o1开云体育，而况整个源代码、精选数据集以及生息模子王人开源！
名为O1-CODER，专注于编码任务。
团队以为编码是一个需要 System-2 想维款式的典型任务，波及严慎、逻辑、一步步的问题处治经过。
而他们的战术是顽强化学习（RL）与蒙特卡洛树搜索（MCTS）相纠合，让模子不详束缚生成推理数据，教诲其 System-2 能力。
执行中，团队有以下几点要道发现：
当推理正确时，基于伪代码的推理显赫教诲了代码生成质料
将监督微调（SFT）与径直偏好优化（DPO）相纠合不详教诲测试用例生成恶果
自我对弈强化学习为推理和代码生成创造了继续校正的轮回机制
具体来说，团队汲取了测试用例生成器，在经过 DPO 后达到 89.2% 的通过率，比较启动微调后的 80.8% 有显赫教诲；Qwen2.5-Coder-7B 汲取伪代码顺序结束了 74.9% 的平均采样通过率，教诲了 25.6%。
网友直呼很需要这么的模子。
O1-CODER，究竟长啥样？
六步，缓缓优化 o1
应用于代码生成的自我对弈强化学习濒临两大挑战：
收尾评估，即若何评判生成代码的质料。与围棋等任务不同，评估代码需要在测试环境中运行并考证。
界说想考和搜索步履，即笃定经过奖励的对象和粒度。
关于第一个挑战，团队建议进修一个测试用例生成器（TCG），阐明问题和圭臬代码自动生成测试用例，为强化学习提供圭臬化的代码测试环境和收尾奖励。
关于第二个挑战，他们采取"先想考后举止"的款式：先通过详备的伪代码想考问题，再基于伪代码生成最终的可奉行代码。
这种款式的上风在于适合性（合并伪代码可对应不同的具体结束）和可控粒度（通过休养伪代码的细节进程放手推理 / 搜索步履的粒度）。
具体来说，商榷团队建议了一个包含六个形势的框架：
进修测试用例生成器（TCG），为代码测试提供圭臬化的环境
欺诈 MCTS 生成包含推理经过的代码数据
迭代微调战术模子，先生成伪代码，再生成无缺代码
基于推理经过数据启动化经过奖励模子（PRM）
在 TCG 提供的收尾奖励和 PRM 提供的经过奖励的双重教诲下，通过强化学习和 MCTS 更新战术模子
欺诈优化后的战术模子生成新的推理数据，复返第 4 步迭代进修
两阶段进修测试用例生成器
在执行部分，商榷东说念主员详备先容了测试用例生成器的进修经过。
分为两个阶段：监督微调（SFT）和径直偏好优化（DPO）。
SFT 阶段的主要方向是确保生成器的输出合乎预界说形势，以便准确理解和索要生成的测试用例。进修数据来自 TACO 数据集。
DPO 阶段的方向是教诲模子生成合乎特定偏好的测试用例，进一步提高生成器的性能和可靠性。
这里汲取了带有东说念主工构建样本对的 DPO 顺序，构建了一个偏好数据集。
执行标明，SFT 阶段事后，TCG 在圭臬代码上生成的测试用例通过率达到 80.8%，DPO 阶段进一步教诲至 89.2%，大幅改善了生成器产出可靠测试用例的能力。
伪代码推理，教诲模子进行深度推理
特别值得一提的是，商榷者引入了基于伪代码的领导顺序，将其算作教诲模子进行深度推理的"领略器用"。
他们为此界说了三个要道步履：
使用伪代码界说算法结构：勾画主要函数的结构和接口，主理任务的全体框架
细化伪代码：缓缓明确每个函数的具躯壳式、逻辑和操作
从伪代码生成代码：将伪代码的结构和逻辑精确翻译为可奉行代码
在 MBPP 数据集上进行的初步执行标明，尽管全体通过率（Pass@1）有所着落，但Average Sampling Pass Rate（ASPR）显赫提高。
标明纠合伪代码显赫改善了推理经过的质料，特别是在细化通向正确输出的旅途方面。这为后续的自监督微长入强化学习提供了雅致的首先。
自我对弈 + 强化学习
商榷东说念主员详备描写了若何使用蒙特卡洛树搜索（MCTS）来构建形势级别的经过奖励数据。
这个经过波及到为每个问题酿成一个推理旅途，该旅途由一系列推理形势构成，并最终产生一个可奉行的代码。在 MCTS 的旅途探索中，使用伪代码领导战术来教诲推理经过。当达到结尾节点时，就酿成了一个无缺的伪代码推理旅途。
结尾节点的奖励值是基于两个要道计算筹算的：编译获胜率（compile）和测试用例通过率（pass）。
这些计算被用来评估生成的代码的质料和正确性。
奖励值被反向传播到旅途上的整个前序节点，为每个形势分派一个奖励值。通过这种款式，构建了推理经过数据集，为战术模子的启动化和进修提供了基础。
经过奖励模子（PRM）的任务是为现时形势分派一个奖励值，以估量其对最终谜底的孝敬。
在数据合成经过中使用的树搜索顺序不错组织成点式（point-wise）和成对式（pair-wise）两种数据形势。
基于这些经过考证的正确推贯穿，战术模子获得启动化。
接下来，经过奖励模子（PRM）出手发达作用，评估每一步推理对最终谜底的孝敬。在测试用例生成器（TCG）提供的收尾奖励和 PRM 提供的经过奖励的双重教诲下，战术模子通过强化学习束缚校正。
更新后的战术模子被用来生成新的推理数据，补充到现存数据荟萃，酿成自我对弈的闭环。这个数据生成 - 奖励建模 - 战术优化的迭代轮回，确保了系统推理能力的继续教诲。
论文联络：https://arxiv.org/pdf/2412.00154
参考联络：https://x.com/rohanpaul_ai/status/1864488583744377271?s=46&t=iTysI4vQLQqCNJjSmBODPw开云体育

开云体育阐明问题和圭臬代码自动生成测试用例-开云官网kaiyun皇马赞助商 (中国)官方网站登录入口

相关资讯

友情链接：

开云体育阐明问题和圭臬代码自动生成测试用例-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口

相关资讯

友情链接：

开云体育阐明问题和圭臬代码自动生成测试用例-开云官网kaiyun皇马赞助商 (中国)官方网站登录入口