news 2026/6/22 23:13:03

昆仑万维发布Skywork-SWE代码智能体基座模型,32B规模刷新仓库级修复能力纪录

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
昆仑万维发布Skywork-SWE代码智能体基座模型,32B规模刷新仓库级修复能力纪录

6月20日,昆仑万维正式推出自主研发的软件工程(Software Engineering, SWE)代码智能体基座模型Skywork-SWE。该模型在320亿参数规模下实现了开源领域仓库级代码修复的突破性进展,其核心技术创新包括构建超万例可验证任务的训练数据集,以及验证数据规模扩展对软件工程任务的增益效应。在权威基准测试SWE-bench Verified中,Skywork-SWE-32B模型以38.0%的pass@1准确率刷新开源模型纪录,引入测试时扩展技术后性能进一步提升至47.0%,不仅超越同参数规模竞品,更显著缩小了与闭源模型的差距。

【免费下载链接】SWE-Dev-32B项目地址: https://ai.gitcode.com/zai-org/SWE-Dev-32B

随着2025年智能体(Agent)模型新阶段的临近,具备"超长上下文理解"与"自主任务闭环"能力的AI系统正成为技术突破焦点。在众多应用场景中,软件工程领域的SWE任务因其贴近真实开发流程的特性,正成为检验智能体综合能力的试金石。与传统代码生成任务不同,SWE任务要求模型完成从缺陷定位、代码修改到验证修复的完整流程,这类源自GitHub真实项目的复杂场景,需要模型具备跨文件依赖分析、工具调用集成和持续迭代修复的能力,全面考验智能体的工程化实践水平。

当前主流SWE任务数据集存在三大核心瓶颈制约技术发展:首先是验证机制缺失,多数开源数据缺乏可执行环境和单元测试,导致修复效果无法有效验证;其次是高质量样本稀缺,现有数据集虽数量庞大但缺乏严格校验,导致开源模型性能长期落后于闭源系统;最后是数据规模法则不明确,现有数据体量难以验证"数据越多性能越强"的扩展定律在SWE任务中的适用性。这些问题共同导致开源社区在构建实用化代码智能体时面临数据困境。

为突破这一局面,昆仑万维团队设计了三阶段九步骤的自动化数据构建流程,通过严格的质量筛选机制,从15万条候选仓库元数据中精选出1万例高质量任务实例,形成包含8千条多轮交互轨迹的Skywork-SWE数据集。该数据集不仅规模超越SWE-Gym Lite等同类产品,更覆盖Pydantic、SQLGlot等主流开源项目及大量中小型仓库,构建起贴近真实开发生态的任务分布体系。

如上图所示,该流程涵盖原始数据采集、环境标准化配置、多轮验证迭代等关键环节。这一系统化构建方法确保了数据集的真实性与可复现性,为训练高性能代码智能体提供了坚实基础。

在数据构建过程中,团队实施了多维度质量控制策略,包括仓库活跃度筛选、测试覆盖率评估和修复有效性验证。通过三级过滤机制,最终从初始候选集中精选出10,237条有效任务实例,构建出当前规模最大的可验证SWE训练数据集。这种严苛的数据治理流程,使得模型能够学习到真实开发场景中的复杂逻辑和工程实践模式。

图表清晰展示了从15万候选样本到1万高质量实例的筛选过程,其中单元测试通过率和代码复杂度是关键过滤指标。这种精细化的数据处理策略,为模型注入了贴近工程实践的问题解决能力。

秉持"Less artifact, more intelligence"的开发理念,团队选择OpenHands框架作为模型交互基座,最大限度保留智能体的自主决策空间。基于高质量数据集训练的Skywork-SWE-32B模型,在SWE-bench Verified基准测试中展现出卓越性能:38.0%的pass@1准确率超越Qwen2.5-Coder-32B系列最佳成绩,验证了数据规模扩展对软件工程任务的显著增益。更值得关注的是,通过引入测试时扩展技术(Test-Time Scaling),模型性能提升至47.0%,这一指标不仅领先同参数规模模型8-15个百分点,更超越GPT-4.1-mini(23.86%)、Claude 3.5 HaiKu(40.6%)等闭源模型,仅略低于GPT-4 Turbo的51.2%。

作为昆仑万维天工超级智能体生态的重要组成,Skywork-SWE-32B的开源发布标志着公司在代码智能体领域的战略布局取得关键进展。该模型的技术突破验证了三个核心结论:高质量可验证数据是突破SWE任务性能瓶颈的关键;系统化数据扩展策略能有效提升模型工程实践能力;开源模型通过精准优化可逼近闭源系统性能。这些发现为社区提供了重要的技术参考,也为构建实用化代码智能体指明了发展方向。

展望未来,昆仑万维团队计划从三个维度推进技术迭代:首先扩展多编程语言支持,覆盖C++、Java等企业级开发场景;其次引入运行时反馈强化学习机制,实现修复效果的动态优化;最后构建多智能体协作系统,模拟真实开发团队的分工协作模式。随着这些技术的落地,Skywork-SWE系列模型有望逐步具备从需求分析到系统部署的全流程软件开发能力,为下一代智能开发工具链奠定基础。

目前,Skywork-SWE-32B模型已通过Gitcode平台开源(仓库地址:https://gitcode.com/zai-org/SWE-Dev-32B),团队同步开放了数据集构建工具和评估脚本,助力学术界和产业界共同推进代码智能体技术发展。这一开源行动不仅体现了昆仑万维推动AI技术普惠的承诺,也为智能体在软件工程领域的标准化和产业化提供了重要实践参考。在AI重塑软件开发流程的浪潮中,Skywork-SWE系列模型的持续进化,或将加速"人机协同开发"时代的到来。

【免费下载链接】SWE-Dev-32B项目地址: https://ai.gitcode.com/zai-org/SWE-Dev-32B

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/23 14:33:28

43、保障Web与文件服务安全:技术、挑战与应对策略

保障Web与文件服务安全:技术、挑战与应对策略 在当今数字化时代,网络安全对于Web应用和文件服务至关重要。以下将详细介绍Web应用安全、文件上传安全、新的Web服务标准以及文件服务安全等方面的内容。 Web应用安全技术 SSL加密技术 SSL(Secure Sockets Layer)用于加密W…

作者头像 李华
网站建设 2026/6/23 19:30:14

47、安全文件服务配置指南

安全文件服务配置指南 1. vsftpd运行模式选择 在配置vsftpd之前,需要决定将其作为独立守护进程运行,还是通过“超级服务器”(inetd或xinetd)运行。早期版本的vsftpd开发者Chris Evans曾因xinetd的日志记录和访问控制功能,推荐将vsftpd与xinetd配合使用。但从1.2版本及以…

作者头像 李华
网站建设 2026/6/22 11:12:45

49、Linux文件共享与日志管理全解析

Linux文件共享与日志管理全解析 一、rsync服务使用详解 在文件共享方面,rsync 是一个非常实用的工具,它可以用于设置匿名和认证的文件同步服务。要了解完整的命令行和配置文件选项,可以查看 rsync(8) 和 rsyncd.conf(5) 的手册页。 (一)使用 rsync 连接到 rsync 服务器…

作者头像 李华
网站建设 2026/6/22 16:02:03

52、系统日志管理与监控全解析

系统日志管理与监控全解析 1. Syslog-ng 的 sync( ) 选项 在 Syslog-ng 中, sync( ) 选项用于限制日志文件同步的频率。它类似于 syslog 的 “-” 前缀,但更加精细。“-” 前缀只是关闭同步,而 file( ) 接受一个数值,可根据需要延迟同步,缓存任意数量的消息。 该数…

作者头像 李华
网站建设 2026/6/23 19:33:02

54、系统日志管理、监控与入侵检测技术详解

系统日志管理、监控与入侵检测技术详解 1. 使用 Swatch 进行自动化日志监控 若要使用 Swatch 监控多个文件,需多次运行 Swatch,每次至少指定不同的跟踪目标(-t 值),可能还需不同的配置文件。更多启动选项可参考 swatch(1) 手册页。 2. 微调 Swatch Swatch 配置并运行后…

作者头像 李华
网站建设 2026/6/19 8:21:19

强力解锁游戏控制器兼容性:ViGEmBus虚拟驱动深度指南

想要让任何游戏手柄在PC上完美运行?ViGEmBus虚拟游戏控制器驱动正是你需要的解决方案!这款强大的开源驱动程序能够将非标准输入设备无缝转换成游戏能够识别的标准控制器,彻底解决兼容性问题。 【免费下载链接】ViGEmBus 项目地址: https:/…

作者头像 李华