news 2026/6/23 14:45:45

新开源AI编程模型逼近专有解决方案

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
新开源AI编程模型逼近专有解决方案

周二,法国AI创业公司Mistral AI发布了Devstral 2,这是一个1230亿参数的开源权重编程模型,旨在作为自主软件工程智能体的一部分。该模型在SWE-bench Verified基准测试中取得72.2%的得分,该基准旨在测试AI系统是否能解决真实的GitHub问题,使其跻身顶级开源权重模型之列。

更值得注意的是,Mistral不仅发布了AI模型,还推出了名为Mistral Vibe的新开发应用。这是一个命令行界面,类似于Claude Code、OpenAI Codex和Gemini CLI,让开发者可以在终端中直接与Devstral模型交互。该工具可以扫描文件结构和Git状态以维护整个项目的上下文,跨多个文件进行修改,并自主执行shell命令。Mistral在Apache 2.0许可证下发布了这个CLI工具。

对AI基准测试保持谨慎态度总是明智的,但我们从大型AI公司的员工那里听说,他们非常关注模型在SWE-bench Verified上的表现。该基准向AI模型提供从热门Python仓库的GitHub问题中提取的500个真实软件工程问题。AI必须阅读问题描述,导航代码库,并生成通过单元测试的可工作补丁。虽然一些AI研究人员注意到,基准测试中约90%的任务是相对简单的错误修复,有经验的工程师在一小时内就能完成,但这是比较编程模型的少数标准化方法之一。

与大型AI编程模型同时,Mistral还发布了Devstral Small 2,这是一个240亿参数的版本,在同一基准测试中得分68%,可以在消费者硬件(如笔记本电脑)上本地运行,无需互联网连接。两个模型都支持256,000个Token的上下文窗口,使它们能够处理中等规模的代码库(尽管你认为它是大还是小很大程度上取决于整体项目复杂性)。公司在修改的MIT许可证下发布Devstral 2,在更宽松的Apache 2.0许可证下发布Devstral Small 2。

Devstral 2目前通过Mistral的API免费使用。免费期结束后,定价为每百万输入Token 0.40美元,每百万输出Token 2.00美元。Devstral Small 2的费用为每百万输入Token 0.10美元,每百万输出Token 0.30美元。Mistral表示,在实际任务中它比Claude Sonnet"成本效率高7倍"。Anthropic的Sonnet 4.5通过API的费用为每百万输入Token 3美元,每百万输出Token 15美元,根据使用的总Token数量还会有所增加。

氛围编程的连接

"Mistral Vibe"这个名字引用了"氛围编程",这是AI研究员Andrej Karpathy在2025年2月创造的一个术语,用来描述一种编程风格:开发者用自然语言描述他们想要的东西,并接受AI生成的代码而不仔细审查。正如Karpathy所描述的,你可以"完全沉浸在氛围中,拥抱指数级增长,忘记代码的存在"。柯林斯词典将其命名为2025年年度词汇。

氛围编程方法既引起了热情也引起了担忧。在3月接受Ars Technica采访时,开发者Simon Willison说:"我真的很享受氛围编程。这是尝试想法并证明其可行性的有趣方式。"但他也警告说:"用氛围编程的方式构建生产代码库显然是有风险的。我们作为软件工程师所做的大部分工作涉及演进现有系统,其中底层代码的质量和可理解性至关重要。"

Mistral押注Devstral 2将能够在整个项目中保持一致性,检测故障,并通过纠正重试,这些声称的能力将使其适用于比简单原型和内部工具更严肃的工作。公司表示该模型可以跟踪框架依赖关系,并处理错误修复和在仓库规模上现代化遗留系统等任务。我们还没有进行实验,但您可能很快会看到Ars Technica对几种AI编程工具的正面比较测试。

Q&A

Q1:Devstral 2有什么特殊功能?

A:Devstral 2是Mistral AI发布的1230亿参数开源编程模型,可以作为自主软件工程智能体使用。它在SWE-bench Verified基准测试中得分72.2%,支持256,000个Token的上下文窗口,能够处理整个项目的代码库,进行错误修复和系统现代化。

Q2:什么是氛围编程?有什么风险?

A:氛围编程是AI研究员Andrej Karpathy提出的编程方式,开发者用自然语言描述需求,直接接受AI生成的代码而不仔细审查。虽然适合快速原型开发,但用于生产环境存在风险,因为代码质量和可理解性对现有系统演进至关重要。

Q3:Devstral 2的定价如何?

A:Devstral 2目前通过Mistral API免费使用。免费期后,定价为每百万输入Token 0.40美元,输出Token 2.00美元。小版本Devstral Small 2为输入Token 0.10美元,输出Token 0.30美元,比Claude Sonnet成本效率高7倍。


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/23 2:38:42

【VTK手册023】深入理解 vtkVertexGlyphFilter:海量点云渲染的高效方案

【VTK手册023】深入理解 vtkVertexGlyphFilter:海量点云渲染的高效方案 1. 概述 在医学图像处理与可视化开发中,我们经常面临海量离散点(如血管中心线关键点、粒子示踪轨迹、原始点云数据)的渲染需求。 通常,初学者会习…

作者头像 李华
网站建设 2026/6/23 8:25:44

ESP32智能网络收音机:从DIY制作到智能家居音乐系统的完美进化

在数字音频技术飞速发展的今天,打造一个完全自主控制的智能音乐播放器已成为电子爱好者的新追求。基于ESP32微控制器、VS1053音频解码器和TFT屏幕的ESP32网络收音机项目,正是一个将专业音频技术与智能控制完美结合的DIY音响杰作。 【免费下载链接】ESP32…

作者头像 李华
网站建设 2026/6/23 7:43:48

17、商业与科技:控制的终结与未来走向

商业与科技:控制的终结与未来走向 在商业和科技的世界里,企业的生存与发展之道一直是备受关注的话题。成功的关键究竟在于什么?是对市场和消费者的控制,还是专注于产品质量和满足消费者需求? 一、控制的失败:多行业案例剖析 许多企业常常受贪婪驱使,试图通过控制资源…

作者头像 李华
网站建设 2026/6/22 14:47:44

GC5035 CSP CMOS图像传感器:重新定义移动摄影体验的高性能解决方案

在当今智能手机摄影竞争日益激烈的市场环境中,GC5035 CSP CMOS图像传感器以其卓越的性能表现和出色的功耗控制,为移动设备制造商提供了理想的图像采集解决方案。这款500万像素的高质量传感器不仅满足了用户对高清画质的需求,更通过创新的技术…

作者头像 李华
网站建设 2026/6/22 21:45:07

免费学术助手Sci-Hub X Now:零基础安装使用全攻略

你是否曾经为了一篇学术论文而头疼不已?面对高昂的付费墙,许多有价值的学术资源变得遥不可及。今天,我要向你介绍一款实用的工具——Sci-Hub X Now浏览器扩展,它能让学术论文获取变得简单而免费! 【免费下载链接】sci-…

作者头像 李华
网站建设 2026/6/22 20:22:31

微博文本情感分析:大数据分析中的 Python 实践

大数据分析项目python--微博文本情感分析 研究思路:基于情感词典基于机器学习LSTM算法支持向量机(SVM) 包含内容:数据集文档代码在大数据时代,文本情感分析成为了挖掘海量数据背后情感倾向的重要手段。今天咱们就来聊聊用 Python 实现微博文本情感分析这个超有趣的大…

作者头像 李华