• 开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口

开云体育阐明问题和圭臬代码自动生成测试用例-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口

发布日期:2025-05-28 09:37    点击次数:139

北京交通大学商榷团队悄默声推出了一版 o1开云体育,而况整个源代码、精选数据集以及生息模子王人开源! 名为O1-CODER,专注于编码任务。 团队以为编码是一个需要 System-2 想维款式的典型任务,波及严慎、逻辑、一步步的问题处治经过。 而他们的战术是顽强化学习(RL)与蒙特卡洛树搜索(MCTS)相纠合,让模子不详束缚生成推理数据,教诲其 System-2 能力。 执行中,团队有以下几点要道发现: 当推理正确时,基于伪代码的推理显赫教诲了代码生成质料 将监督微调(SFT)与径直偏好优化(

  • 开云体育阐明问题和圭臬代码自动生成测试用例-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口

    北京交通大学商榷团队悄默声推出了一版 o1开云体育,而况整个源代码、精选数据集以及生息模子王人开源!

    名为O1-CODER,专注于编码任务。

    团队以为编码是一个需要 System-2 想维款式的典型任务,波及严慎、逻辑、一步步的问题处治经过。

    而他们的战术是顽强化学习(RL)与蒙特卡洛树搜索(MCTS)相纠合,让模子不详束缚生成推理数据,教诲其 System-2 能力。

    执行中,团队有以下几点要道发现:

    当推理正确时,基于伪代码的推理显赫教诲了代码生成质料

    将监督微调(SFT)与径直偏好优化(DPO)相纠合不详教诲测试用例生成恶果

    自我对弈强化学习为推理和代码生成创造了继续校正的轮回机制

    具体来说,团队汲取了测试用例生成器,在经过 DPO 后达到 89.2% 的通过率,比较启动微调后的 80.8% 有显赫教诲;Qwen2.5-Coder-7B 汲取伪代码顺序结束了 74.9% 的平均采样通过率,教诲了 25.6%。

    网友直呼很需要这么的模子。

    O1-CODER,究竟长啥样?

    六步,缓缓优化 o1

    应用于代码生成的自我对弈强化学习濒临两大挑战:

    收尾评估,即若何评判生成代码的质料。与围棋等任务不同,评估代码需要在测试环境中运行并考证。

    界说想考和搜索步履,即笃定经过奖励的对象和粒度。

    关于第一个挑战,团队建议进修一个测试用例生成器(TCG),阐明问题和圭臬代码自动生成测试用例,为强化学习提供圭臬化的代码测试环境和收尾奖励。

    关于第二个挑战,他们采取"先想考后举止"的款式:先通过详备的伪代码想考问题,再基于伪代码生成最终的可奉行代码。

    这种款式的上风在于适合性(合并伪代码可对应不同的具体结束)和可控粒度(通过休养伪代码的细节进程放手推理 / 搜索步履的粒度)。

    具体来说,商榷团队建议了一个包含六个形势的框架:

    进修测试用例生成器(TCG),为代码测试提供圭臬化的环境

    欺诈 MCTS 生成包含推理经过的代码数据

    迭代微调战术模子,先生成伪代码,再生成无缺代码

    基于推理经过数据启动化经过奖励模子(PRM)

    在 TCG 提供的收尾奖励和 PRM 提供的经过奖励的双重教诲下,通过强化学习和 MCTS 更新战术模子

    欺诈优化后的战术模子生成新的推理数据,复返第 4 步迭代进修

    两阶段进修测试用例生成器

    在执行部分,商榷东说念主员详备先容了测试用例生成器的进修经过。

    分为两个阶段:监督微调(SFT)和径直偏好优化(DPO)。

    SFT 阶段的主要方向是确保生成器的输出合乎预界说形势,以便准确理解和索要生成的测试用例。进修数据来自 TACO 数据集。

    DPO 阶段的方向是教诲模子生成合乎特定偏好的测试用例,进一步提高生成器的性能和可靠性。

    这里汲取了带有东说念主工构建样本对的 DPO 顺序,构建了一个偏好数据集。

    执行标明,SFT 阶段事后,TCG 在圭臬代码上生成的测试用例通过率达到 80.8%,DPO 阶段进一步教诲至 89.2%,大幅改善了生成器产出可靠测试用例的能力。

    伪代码推理,教诲模子进行深度推理

    特别值得一提的是,商榷者引入了基于伪代码的领导顺序,将其算作教诲模子进行深度推理的"领略器用"。

    他们为此界说了三个要道步履:

    使用伪代码界说算法结构:勾画主要函数的结构和接口,主理任务的全体框架

    细化伪代码:缓缓明确每个函数的具躯壳式、逻辑和操作

    从伪代码生成代码:将伪代码的结构和逻辑精确翻译为可奉行代码

    在 MBPP 数据集上进行的初步执行标明,尽管全体通过率(Pass@1)有所着落,但Average Sampling Pass Rate(ASPR)显赫提高。

    标明纠合伪代码显赫改善了推理经过的质料,特别是在细化通向正确输出的旅途方面。这为后续的自监督微长入强化学习提供了雅致的首先。

    自我对弈 + 强化学习

    商榷东说念主员详备描写了若何使用蒙特卡洛树搜索(MCTS)来构建形势级别的经过奖励数据。

    这个经过波及到为每个问题酿成一个推理旅途,该旅途由一系列推理形势构成,并最终产生一个可奉行的代码。在 MCTS 的旅途探索中,使用伪代码领导战术来教诲推理经过。当达到结尾节点时,就酿成了一个无缺的伪代码推理旅途。

    结尾节点的奖励值是基于两个要道计算筹算的:编译获胜率(compile)和测试用例通过率(pass)。

    这些计算被用来评估生成的代码的质料和正确性。

    奖励值被反向传播到旅途上的整个前序节点,为每个形势分派一个奖励值。通过这种款式,构建了推理经过数据集,为战术模子的启动化和进修提供了基础。

    经过奖励模子(PRM)的任务是为现时形势分派一个奖励值,以估量其对最终谜底的孝敬。

    在数据合成经过中使用的树搜索顺序不错组织成点式(point-wise)和成对式(pair-wise)两种数据形势。

    基于这些经过考证的正确推贯穿,战术模子获得启动化。

    接下来,经过奖励模子(PRM)出手发达作用,评估每一步推理对最终谜底的孝敬。在测试用例生成器(TCG)提供的收尾奖励和 PRM 提供的经过奖励的双重教诲下,战术模子通过强化学习束缚校正。

    更新后的战术模子被用来生成新的推理数据,补充到现存数据荟萃,酿成自我对弈的闭环。这个数据生成 - 奖励建模 - 战术优化的迭代轮回,确保了系统推理能力的继续教诲。

    论文联络:https://arxiv.org/pdf/2412.00154

    参考联络:https://x.com/rohanpaul_ai/status/1864488583744377271?s=46&t=iTysI4vQLQqCNJjSmBODPw开云体育



相关资讯