
开云体育(中国)官方网站
这项由华为时代有限公司、南洋理工大学、香港大学和香港汉文大学连系完成的冲突性经营发表于2026年1月,论文编号为arXiv:2601.01426v1。经营团队通过一种名为SWE-Lego的立异老练方法,让相对较小的8B参数模子在软件代码自动征战任务上的进展超越了很多32B以致70B的大型模子。这就像是让一位武艺深湛的专科大夫在复杂手术中驯服了警告更丰富的全科大夫一样令东谈主骇怪。
联想一下,你的电脑门径出了bug,就像汽车引擎出现故障一样让东谈主头疼。传统上,门径员需要像汽车修理工一样,破耗无数时刻阅读代码、测试各种可能性,然后手工征战问题。而AI代码征战就像是领有了一个超等智能的自动诊断和征战系统,大致自动定位问题并提供处置决议。这种时代的价值了然于目——它不错大大升迁软件开发遵守,减少东谈主为伪善,以致在某些情况下比警告丰富的门径员更快更准确地处置问题。
然而,老练这么的AI系统面对着浩大挑战。现存的方法不时需要复杂的多阶段老练经过,就像培养一个大夫需要资格医学院、实习、入院医师等多个阶段一样。这些方法不仅筹备资本努力,还容易在老练过程中出现各种问题。更纰谬的是,高质料的老练数据极其稀缺,就像寻找警告丰富的名医来带领生手一样阻挠。
华为经营团队淡薄的SWE-Lego框架就像是一套用心遐想的医学培训体系,通过三个中枢组件达成了令东谈主防卫的恶果。起始是构建了一个包含32000个高质料任求实例和18000个考据轨迹的羼杂数据集,这就像是集聚了无数确凿的病例和群众的诊疗纪录。其次是纠正了传统的监督学习方法,引入了伪善屏蔽和基于难度的课程学习,就像是在医学造就中先让学生处理浅薄病例,逐步升迁到复杂手术,同期幸免让学生学习伪善的操作。终末是开发了测试时延长时代,通过生成多个处置决议并使用考据器遴荐最好决议,就像是让多位大夫诊断后遴荐最优养息决议。
经营团队的中枢细察在于发现了数据质料比模子限制更进击的事实。他们的8B参数模子SWE-Lego-Qwen3-8B在SWE-bench Verified基准测试中达到了42.2%的奏遵守,而32B模子更是达到了52.6%的惊东谈主进展。当加上测试时延长时代后,这两个数字分辩升迁到了49.6%和58.8%。这就像是一个受过考究无比老练的专科大夫每每比警告不及的全科大夫在特定边界进展更出色一样。
一、数据是王谈:构建高质料的老练材料库
传统的AI老练成像是让学生只看教科书学医一样,费劲确凿寰球的复杂性和各种性。华为经营团队意志到,要老练出实在实用的代码征战AI,需要的不单是是无数数据,更需要高质料、各种化的老练材料。就像培养优秀大夫需要确凿病例和模拟老练相邻接一样,他们吸收了羼杂数据战术,将确凿寰球的代码问题和东谈主工生成的合成问题好意思妙邻接。
这种羼杂战术的精妙之处在于两种数据源的互补脾气。确凿寰球的代码问题来自GitHub上的践诺拉取申请,就像是从确凿病院集聚的病例一样,具有高度的确凿性和复杂性,但数目有限。经营团队集聚了18409个这么的确凿任务,它们不时触及多个文献的修改,平均需要修改3.7个文献、9.5个代码块和138行代码,就像复杂的轮廓性疾病需要全方向养息一样。
比较之下,合成任务就像是在医学模拟器上熟练一样,天然复杂度相对较低,但不错大限制生成,为AI提供更各种化的老练契机。经营团队生成了13710个合成任务,它们不时只触及单个文献的修改,平均修改1个文献、1.3个代码块和18.8行代码。这些合成任务通过两种好意思妙的时代生成:一是让大说话模子重写代码,就像让医学生阐述症状形容再行诊断疾病;二是通过抽象语法树变换时代,系统性地修改代码结构,就像在模拟器中耕作各种病理情状。
更进击的是,经营团队为每个任务皆建树了齐备的可践诺环境,就像为每个病例提供了齐备的检验征战和实验室要求。他们从3000多个Python仓库中用心挑选,确保每个仓库皆能奏效构建和运行测试。这种严格的质料限制就像医学院只遴荐造就病院进行临床实习一样,保证了老练环境的可靠性。
数据质料限制的另一个纰谬要津是老套AI"舞弊"。在软件开发中,存在一个被称为"Git舞弊"的问题,就像考试时偷看谜底一样,AI可能领略过检验代码仓库的历史纪录来班师赢得问题的处置决议。经营团队为此采用了严格的驻防措施,关于确凿任务,他们移除了通盘在问题创建日历之后的提交纪录;关于合成任务,他们总计甩掉了Git历史纪录。这确保AI必须实在"理会"代码并处置问题,而不是浅薄地复制现成谜底。
通过这种用心遐想的羼杂数据战术,经营团队最终构建了一个包含32119个任求实例和18110个考据轨迹的高质料数据集。实验收尾深入,这种羼杂方法比单纯使用确凿数据或合成数据皆要灵验得多。跟着合成数据比例的加多,AI的性能稳步升迁,就像医学生在确凿病例和模拟老练的双重锤真金不怕火下逐步成长为优秀大夫一样。
二、精确造就:纠正传统的学习方法
传统的AI老练方法就像让学存一火记硬背教科书的每一个字一样,不分重心地学习通盘内容。华为经营团队发现,这种方法在代码征战任务中存在严重问题,因为群众演示的过程每每包含伪善尝试和最终的正确处置决议,要是AI同期学习这两部分,就像让医学生同期记着伪善诊断和正确诊断一样,容易产生浑浊。
为了处置这个问题,经营团队开发了"要领级伪善屏蔽"时代,就像是给学生标注出教科书中的伪善示例,让他们专注学习正确的方法。具体来说,当AI在学习群众轨迹时,系统会自动识别那些导致践诺伪善的操作要领,比如器具调用失败或测试欠亨过的情况,然后在筹备学习吃亏机忽略这些伪善要领。这就像憨厚在锤真金不怕火手术过程时,会明确指出"这一步是伪善的,不要学习",让学生只专注于学习正确的操作。
这种方法的恶果立竿见影。在践诺测试中,使用伪善屏蔽时代的模子比传统方法升迁了2个百分点以上。更道理的是,这种纠正主要体面前减少"达成伪善"和"定位伪善"这两类问题上,评释AI如实学会了幸免常见的伪善模式。
除了伪善屏蔽,经营团队还引入了"基于难度的课程学习",就像学校造就中从小学到中学再到大学的渐进式培养体系。他们发现了一个道理的公法:处置问题所需的交互轮次与任务难度高度关联,关研究数达到了惊东谈主的-0.95。浅薄来说,越复杂的问题需要越多的尝试次数才气处置,这就像复杂疾病需要更多检验和养息要领一样。
基于这个发现,经营团队将老练数据按交互轮次分为三个难度品级:浅薄任务(0-50轮)、中等任务(50-70轮)和阻挠任务(70-100轮)。老练时,AI起始学习浅薄任务,掌合手基本手段后再逐步战争更复杂的问题。这就像医学院的培养模式,学生先学习基础表面,然后战争浅薄病例,终末才处理复杂的疑难杂症。
为了老套AI在学习新内容时健忘之前学过的手段,经营团队在每个阶段皆会加入前边阶段的老练数据进行平定。这种"温故而知新"的战术确保了AI大致在掌合手高难度手段的同期保持对基础手段的熟练度。
实验收尾标明,伪善屏蔽和课程学习的邻接使用恶果最好。在SWE-bench Verified测试中,两种时代的协同作用为8B模子带来了2.8个百分点的升迁,为32B模子带来了3.8个百分点的升迁。这就像是用心遐想的医学造就体系比传统的填鸭式造就更能培养出优秀大夫一样。
三、多决议诊断:测试时延长时代的聪惠
即使是无拘无束的AI模子,在面对复杂问题时也可能出现"一招鲜"的局限性,就像单个大夫可能会有想维盲区一样。华为经营团队鉴戒了医学界多科诊断的聪惠,开发了测试时延长时代,让AI大致生成多个处置决议,然后通过"群众评审"遴荐最好决议。
这种方法的中枢想想是在AI推理时参加更多筹备资源,就像面对疑难杂症时组织多科群众诊断一样。经营团队发现了两个纰谬的延长维度:轮番延长和并行延长。轮番延长就像是给大夫更多时刻进行诊断,允许AI进行更多轮次的想考和尝试;并行延长则像是让多个大夫同期独处诊断,然后比较他们的决议。
在轮番延长方面,经营团队通过无数实验发现了一个进击公法:加多想考轮次在启动时恶果显赫,但在达到100-140轮后启动饱和。这就像大夫在诊断初期每加多一项检验皆能赢得有用信息,但检验过多时新信息的价值会递减。突出这个临界点后,不息加多轮次的收益很小,反而应该将筹备资源参加到并行延长上。
并行延长的纰谬在于若何从多个候选决议中遴荐最优解。经营团队比较了两种考据器遐想:总结式考据器和生成式考据器。总结式考据器就像是给每个决议打分,然后遴荐得分最高的;生成式考据器则像是让评审群众阅读决议后回复"这个决议好不好",然后阐述回复的概率来判断。
实验收尾深入,生成式考据器明显优于总结式考据器,颠倒是在候选决议数目加多时上风愈加明显。在16个候选决议中遴荐时,生成式考据器的进展比总结式考据器高出2.8个百分点。这种各异的原因可能在于生成式考据器更好地诈欺了大说话模子的内在常识和推理才略,就像警告丰富的群众在评估决议时会轮廓计划多种身分,而不单是是按照固定模范打分。
在考据器老练方面,经营团队发现数据质料和限制皆很进击。使用18000个轨迹老练的考据器比使用6000个轨迹的进展更好,并且跟着候选决议数目加多,这种上风愈发明显。这就像培训警告丰富的评审群众需要无数的案例聚集一样,更多的高质料老练数据大致让考据器具备更强的判断才略。
另一个道理的发现是考据器限制的影响。关于8B模子生成的候选决议,8B和30B限制的考据器进展相似;但关于32B模子的输出,30B考据器明显优于8B考据器。这评释更苍劲的模子生成的决议每每包含更奥密的各异,需要更大限制的考据器才气准确识别,就像复杂病例需要更资深的群众来评判一样。
通过这种多头绪的测试时延长战术,华为经营团队的8B模子性能从42.2%升迁到49.6%,32B模子从52.6%升迁到58.8%。这种升迁幅度评释注解了"集体聪惠"在AI推理中的进击价值,就像多科诊断每每大致得出比单个群众更准确的诊断收尾一样。
四、实战考据:与顶尖敌手的较量
华为经营团队的SWE-Lego系统在践诺测试中展现出了令东谈主颤动的性能进展,就像一匹黑马在强烈竞争中脱颖而出。在软件工程界广受认同的SWE-bench Verified基准测试中,SWE-Lego不仅超越了同等限制的开源模子,以致在某些情况下靠拢了更大限制的生意模子。
SWE-bench Verified就像是软件征战AI的"高考",包含了500个用心筛选的确凿软件问题,每个问题皆经过严格考据,确保有明确的正确谜底和可践诺的测试环境。这个测试的难度在于它不是浅薄的代码生成任务,而是需要AI具备齐备的软件工程才略:理会问题形容、浏览代码库、定位bug位置、遐想征战决议、实施修改并考据恶果,就像要求大夫完成从接诊到营救的齐备诊疗经过。
在这场强烈的竞争中,SWE-Lego-Qwen3-8B取得了42.2%的奏遵守,而32B版块更是达到了52.6%的优异进展。这个数字的含义是,在500个测试问题中,8B模子大致总计正确处置211个问题,32B模子大致处置263个问题。计划到这些皆是来自确凿软件样式的复杂问题,这么的进展水平依然具备了实用价值。
与竞争敌手的比较更能体现SWE-Lego的上风。在8B级别的模子中,传统的SWE-Gym-7B只可达到10.6%的奏遵守,SWE-agent-LM-7B为15.2%,即使是进展较好的Klear-Agent-8B-SFT也唯有39.0%的奏遵守。SWE-Lego-Qwen3-8B的42.2%奏遵守明显最初,就像是在吞并场考试中,别的学生考60-70分时,它考到了85分以上。
在32B级别的竞争中,SWE-Lego的上风相通明显。R2E-Gym-32B的奏遵守为34.4%,Skywork-SWE-32B为38.0%,即使是吸收强化学习的DeepSWE-32B-Preview也只达到42.2%。SWE-Lego-Qwen3-32B的52.6%奏遵守不仅大幅超越了这些敌手,以致靠拢了一些吸收复杂老练经过的更大模子的性能。
颠倒值得防卫的是,经营团队申诉的通盘收尾皆是在老套"Git舞弊"要求下赢得的,而很多竞争敌手的收尾可能因为Git舞弊而被东谈主为举高。Git舞弊就像是考试时偷看谜底,天然能提高分数,但无法反应确凿才略。这使得SWE-Lego的收货含金量更高,就像在严格监考要求下取得的收货更能反应学生的确凿水平。
当加入测试时延长时代后,SWE-Lego的进展更是令东谈主热爱。8B模子的奏遵守升迁到49.6%,32B模子达到58.8%,这依然接近以致突出了一些生意级的大型模子。这种升迁就像是单个大夫的诊断准确率为50%,但通过多科诊断大致将准确率升迁到60%以上,充分体现了集体聪惠的价值。
与生意模子的比较也颇为道理。OpenAI的GPT-4o在里面评测中达到33.2%,Claude-4-Sonnet为66.6%,最新的GPT-5以致达到71.8%。天然SWE-Lego尚未达到这些顶级生意模子的水平,但计划到它是总计开源的,并且模子限制要小得多,这么的进展依然尽头出色,就像是让一个小诊所的大夫与顶级病院的群众团队竞争,天然还有差距,但依然展现出了满盈的专科水平。
更进击的是,SWE-Lego评释注解了只是通过用心遐想的监督学习就能取得接近复杂老练方法的恶果。很多竞争敌手需要邻接预老练、监督微调、强化学习等多个阶段,就像培养一个群众需要资格漫长复杂的造就过程。而SWE-Lego仅通过纠正的监督学习就达到了肖似恶果,这不仅裁汰了老练资本,也为其他经营者提供了一条更简单高效的时代旅途。
五、深度领会:奏效背后的时代细察
华为经营团队在开发SWE-Lego的过程中赢得了很多深刻的时代细察,这些发现不仅解释了为什么SWE-Lego大致奏效,也为通盘AI代码征战边界提供了珍视的警告。就像医学经营不仅要找到养息方法,还要理会疾病的骨子机制一样,理会这些时代细察关于鼓励通盘边界的发展至关进击。
通过对老练过程中伪善模式的详备分析,经营团队发现AI在学习代码征战手段时受命着了了的发展轨迹,就像医学生从基础常识到临床实践的成长过程。在老练初期,AI最常犯的伪善是"无法重现问题",占通盘伪善的38.97%。这就像生手大夫刚启动时连病东谈主的症状皆无法准确识别一样。经过第一个老练周期后,这类伪善总计隐藏,评释AI依然掌合手了基本的问题理会和环境操作手段。
跟着老练的深入,"超出最大轮次放手"成为主要问题,占伪善的35.14%。这反应了AI在战术绸缪方面的不及,就像大夫大致诊断出疾病,但不知谈若何高效地制定养息决议。这种伪善模式的出现恰巧考据了课程学习方法的价值——通过先老练浅薄任务,AI大致学会基本的解题战术,然后再应用到复杂问题中。
在老练的后期阶段,"伪善达成"和"定位伪善"成为主要瓶颈。这评释AI依然具备了基本的问题处置才略,但在精信服位问题和实施正确征战决议方面还需要升迁。这就像警告丰富的大夫大致苟简判断病情,但在具体养息细节上可能还会出错。这种鼎新恰巧评释了伪善屏蔽时代的进击性——通过幸免学习伪善的达成要领,AI大致更好地掌合手正确的操作花样。
数据限制与质料的衡量也提供了进击启示。经营团队发现,只是加多数据量并不可保证性能升迁,数据质料相通进击。就像医学院不可只是加多造就时刻,更需要优化造就内容和方法。通过羼杂确凿数据和高质料合成数据,SWE-Lego在有限的筹备资源下达成了最好的性能收益比。
在测试时延长的实验中,经营团队发现了轮番延长和并行延长之间的道理研究。轮番延长在达到饱和点后收益递减,这评释单纯加多想考时刻并不老是灵验的,就像大夫花太多时刻在单一诊断想路上可能会钻牛角尖。相悖,并行延长通过探索不同的处置旅途,大致在疏导的筹备预算下赢得更好的恶果,这体现了"条条大谈通罗马"的聪惠。
考据器遐想的比较也揭示了深层的时代道理。生成式考据器之是以优于总结式考据器,可能是因为它更好地诈欺了说话模子的语义理会才略。总结式考据器只可输出一个数值分数,而生成式考据器大致通过"是"或"否"的回复体现更丰富的推理过程,就像警告丰富的群众评估不仅看收尾,更青睐推理过程的合感性。
老练数据的构造过程也提供了珍视警告。老套Git舞弊天然裁汰了部分性能倡导,但确保了AI学习到的是实在的问题处置手段,而不是浅薄的模式匹配。这种"憨厚学习"的原则天然在短期内可能影响竞争收货,但关于培养实在实用的AI系统具有永恒价值,就像憨厚考试天然可能影响分数,但能确保学到实在的常识。
这些时代细察不仅解释了SWE-Lego的奏效,也为通盘AI代码征战边界提供了进击带领原则:青睐数据质料、吸收渐进式老练、邻接多种延长战术、确保学习的确凿性。这些原则就像医学造就中的基本理念一样,天然看似浅薄,但正确应用就能产生显赫恶果。
说到底,SWE-Lego的奏效并非依赖某项单一的时代冲突,而是通过系统性的方法纠正和用心的工程实践达成的。华为经营团队评释注解了在AI发展确现时阶段,智能的方法遐想每每比浅薄的限制延长更有价值,这就像小巧的手术时代每每比崇高的征战更能决定养息恶果。
这项经营最进击的孝敬在于为开源社区提供了一条可行的时代旅途。通过开源SWE-Lego的数据集、模子和方法,华为经营团队为通盘AI代码征战边界的发展作念出了实质性孝敬。就像医学跨越需要寰球大夫分享警告和时代一样,AI时代的发展也需要这种绽开互助的精神。
关于庸俗开发者和软件公司来说,SWE-Lego的酷爱酷爱不仅在于时代冲突,更在于它展示了AI赞助编程的现实可能性。当AI大致自动征战大部分常见代码问题时,门径员就能将更多元气心灵参加到立异性使命中,就像自动化诊断征战自如了大夫,让他们大致专注于更复杂的医疗决策。这种时代跨越最终将升迁通盘软件行业的遵守和质料,让咱们的数字生涯变得愈加可靠和理会。
Q&A
Q1:SWE-Lego是什么?
A:SWE-Lego是华为经营团队开发的AI代码自动征战系统,大致像专科门径员一样自动诊断和征战软件bug。它最大的特色是通过纠正老练方法,让相对较小的8B参数模子在代码征战任务上超越了很多更大的32B以致70B模子,就像让武艺深湛的专科大夫驯服了警告更丰富的全科大夫。
Q2:SWE-Lego的中枢立异时代有哪些?
A:主要有三大立异:起始是羼杂数据集,邻接确凿GitHub问题和高质料合成数据,提供32000个任求实例;其次是纠正的监督学习方法,包括伪善屏蔽时代和课程学习,就像让AI成心学习正确操作而幸免伪善示范;终末是测试时延长时代,通过生成多个处置决议并用考据器遴荐最好决议,肖似多科大夫诊断。
Q3:庸俗门径员若何受益于SWE-Lego时代?
A:当这种AI代码征战时代普及后,门径员不错像使用智能助手一样赢得自动化的代码问题诊断和征战建议,大大提高开发遵守并减少东谈主为伪善。门径员大致将更多时刻参加到立异性使命中,而不是破耗无数时刻调试基础性bug,就像大夫有了先进诊断征战后能专注于更复杂的医疗决策。
