📢 本周 AI 快讯 | 1 分钟速览🚀
1️⃣🧠 阿里千问开源 Qwen3-Coder-Next:800 亿参数仅激活 30 亿,SWE-Bench Verified 70.6% 超越DeepSeek-V3.2,46GB 内存 MacBook 即可本地运行,Apache 2.0 协议开源。
2️⃣🎬 快手可灵 AI 升级 3.0:首发智能分镜系统,支持逐镜头指定景别与机位,视频 3.0 Omni实现跨镜头数字演员复用,全球用户突破 6000 万,累计生成超 6 亿条视频。
3️⃣💻 OpenAI 发布 GPT-5.3-Codex:Terminal-Bench 2.0 得分 77.3%,较前代飙升 13 个百分点,成为首个触发网络安全「高能力」评级的模型,发布时间仅比Claude Opus 4.6晚 20 分钟。
4️⃣🏢 OpenAI 推出企业 Agent 平台 Frontier:支持构建拥有独立身份和权限的「AI 同事」,兼容自家及第三方 Agent,HP、Oracle、Uber 等已成为早期客户,直接冲击传统 SaaS 按席位收费模式。
5️⃣🖥️ OpenAI Codex macOS 应用上线:支持多 Agent 并行处理、Git worktree 隔离运行和定时自动化任务,限时向免费用户开放,三天下载量突破 50 万次。
6️⃣✨ Anthropic 发布 Claude Opus 4.6:ARC-AGI 2 从 37.6% 飙至 68.8%,远超GPT-5.2和Gemini 3 Pro,首次支持 100 万 token 上下文窗口,API 定价维持不变。
7️⃣📉 Anthropic 法律插件引爆 2850 亿美元抛售:Claude Cowork 发布法律自动化插件后,汤森路透暴跌 15.83% 创历史纪录,LegalZoom 跌近 20%,恐慌蔓延至全球 SaaS 板块。
8️⃣🔀 GitHub 同时接入 Claude 和 Codex:开发者可将同一 Issue 分配给 Copilot、Claude、Codex 三个 Agent「赛马」,标志着 GitHub 从单一 AI 助手转型为多 Agent 调度平台。
9️⃣🤖 AI Agent 社交平台 Moltbook 爆火:上线一周注册 Agent 突破 150 万,自发创造宗教和专属语言,还搭建了 AI 专属的「成人网站」,但安全公司发现 150 万个 API 密钥完全暴露。
1️⃣0️⃣🚀 SpaceX 完成收购 xAI:合并估值约 1.25 万亿美元,成为史上最大并购交易,核心计划是将 AI 算力搬到太空,已向 FCC 申请部署最多 100 万颗计算卫星,计划 2026 年年中 IPO。
01|阿里千问开源「Qwen3-Coder-Next」,3B 激活参数,本地可跑的编程 Agent
2 月 3 日,阿里千问团队发布Qwen3-Coder-Next,一款专为编程 Agent 和本地开发设计的开放权重模型。采用超稀疏 MoE 架构,总参数 800 亿但每次推理仅激活 30 亿,吞吐量号称比同规模密集模型高 10 倍。SWE-Bench Verified 得分 70.6%,超过DeepSeek-V3.2(671B 参数)的 70.2%;SWE-Bench Pro 得分 44.3%,同样领先DeepSeek-V3.2的 40.9% 和GLM-4.7的 40.6%。安全代码生成方面,CWEval 基准 56.32% 超越了Claude Opus 4.5。支持 256K 上下文,覆盖 370 种编程语言。
模型的核心亮点是本地部署的可行性。46GB 内存的 MacBook 或一张 RTX 5090 即可运行,兼容 Claude Code、Qwen Code、Cline 等主流 IDE Agent 框架,GGUF 量化版本支持 llama.cpp。训练采用 80 万个可验证编程任务,Agent 在容器化环境中与实际代码交互并通过强化学习迭代。Apache 2.0 协议开源,权重已上线 Hugging Face 和 ModelScope。
02|快手可灵 AI 升级「3.0」,智能分镜首发,6000 万用户已生成 6 亿条视频
2 月 5 日,快手旗下可灵 AI 发布3.0系列模型,包含视频 3.0、视频 3.0 Omni、图片 3.0和图片 3.0 Omni四款产品。核心升级是智能分镜系统,创作者可逐镜头指定时长、景别、机位运动和叙事内容,模型自动调度生成连贯的多镜头视频,最长支持 15 秒连续输出。视频 3.0 Omni支持从 3 至 8 秒参考视频中提取角色外观和音色,在全新场景中复用同一「数字演员」,解决了 AI 视频长期存在的跨镜头主体一致性难题。原生音频覆盖中英日韩西五种语言及美式、英式、印度口音,可在同一场景中让不同角色说不同语言。图片 3.0 Omni支持 2K/4K 超高清输出。
可灵 3.0基于 All-in-One 架构,将文生视频、图生视频、参考视频生成和视频编辑整合进单一多模态模型,创作者无需在多个工具间跳转。自 2024 年 6 月上线以来,可灵全球用户突破 6000 万,累计生成超 6 亿条视频,合作企业超 3 万家,年化收入达 2.4 亿美元。目前3.0系列已向黑金会员开放内测,近期将全量上线。
03|OpenAI 发布「GPT-5.3-Codex」,Terminal-Bench 飙升 13 个百分点
2 月 5 日,OpenAI 发布GPT-5.3-Codex,将GPT-5.2-Codex的编程能力与GPT-5.2的推理能力合并为单一模型,推理速度提升 25%。Terminal-Bench 2.0 得分 77.3%,较前代的 64.0% 跃升超过 13 个百分点,同一基准上 Anthropic 刚发布的Claude Opus 4.6为 65.4%。OSWorld-Verified 从 38.2% 接近翻倍至 64.7%,逼近人类 72% 的水平。SWE-Bench Pro 小幅提升至 56.8%,但 token 消耗量低于所有前代模型。发布时间耐人寻味,比 Anthropic 发布Claude Opus 4.6仅晚 20 分钟。
OpenAI 称这是首个「参与自身创建」的模型,开发团队用早期版本调试训练、管理部署,甚至在流量高峰期自动编写脚本扩缩 GPU 集群。产品定位也从纯编程工具扩展为通用工作 Agent,覆盖文档撰写、幻灯片制作、数据分析等知识工作场景。安全层面,该模型成为 OpenAI 首个触发网络安全「高能力」评级的模型,API 访问暂未开放,高风险功能需通过信任访问计划申请,同步投入 1000 万美元 API 额度支持防御研究。目前面向 ChatGPT 付费用户开放,可通过 Codex 应用、命令行、IDE 插件和网页使用。
04|OpenAI 推出企业 Agent 平台「Frontier」,剑指 Anthropic
2 月 5 日,OpenAI 发布企业级 Agent 管理平台 Frontier,帮助企业构建、部署和管理可独立执行任务的「AI 同事」。平台可连接 CRM、数据仓库、工单系统等企业内部应用,让 Agent 在跨系统环境中运行代码、处理文件、调用工具。每个 Agent 拥有独立身份和权限边界,支持本地、企业云和 OpenAI 托管三种部署方式。目前 HP、Oracle、State Farm、Uber、Intuit 等已成为早期客户,其中一家全球金融公司通过 Agent 自动化销售流程,为客户团队释放了超过 90% 的时间。
Frontier 的野心不止于工具层面。OpenAI 应用 CEO Fidji Simo 明确表示平台兼容自家、企业自研及第三方(包括谷歌、微软、Anthropic)的 Agent,定位为企业 AI 的「操作系统」。这直接冲击了 Salesforce、ServiceNow 等传统 SaaS 厂商的按席位收费模式,消息发布后相关股价承压。目前 Frontier 仅向有限企业客户开放,定价尚未公布。Anthropic 的 Cowork 和谷歌凭借既有企业关系构成主要竞争,企业客户目前占 OpenAI 营收约 40%,目标年底提升至 50%。
05|OpenAI 发布「macOS 版 Codex」应用,免费用户限时可用,三天下载 50 万次
2 月 2 日,OpenAI 推出 Codex macOS 桌面应用,定位为多 Agent「指挥中心」。开发者可同时启动多个 Agent 线程并行处理不同任务,每个 Agent 通过 Git worktree 在隔离环境中运行,互不干扰主代码库。内置 Skills 系统支持调用 Figma 设计稿、管理 Linear 项目、部署至 Cloudflare/Vercel 等工作流,还可设置定时自动化任务在后台运行,完成后进入审核队列。Sam Altman 称这是「OpenAI 内部最受欢迎的产品」,自己最近「不用打开 IDE 就完成了一个大型项目」。
Codex 目前限时向 ChatGPT 免费和 Go 用户开放,付费用户额度临时翻倍,三天内下载量突破 50 万。自去年 12 月GPT-5.2-Codex发布以来,Codex 整体用量翻倍,过去一个月超过 100 万开发者使用。TechCrunch 评价该应用是 OpenAI 对 Claude Code 和 Cursor 的直接回应,从「终端优先」的 CLI 工具进化为「调度优先」的桌面应用。目前仅支持 Apple Silicon Mac,Windows 版开发中。
06|Anthropic 发布「Claude Opus 4.6」,ARC-AGI 2 从 37.6% 飙至 68.8%
2 月 5 日,Anthropic 发布旗舰模型Claude Opus 4.6,距前代Opus 4.5仅三个月。最亮眼的突破在 ARC-AGI 2 上,得分从Opus 4.5的 37.6% 飙升至 68.8%,远超GPT-5.2的 54.2% 和Gemini 3 Pro的 45.1%。知识工作评估 GDPval-AA Elo 达 1606,领先GPT-5.2的 1462;BrowseComp 深度检索 84.0%,超过GPT-5.2 Pro的 77.9%;金融 Agent 基准 60.7%,同样位居第一。不过 Terminal-Bench 2.0 得分 65.4%,被同日发布的GPT-5.3-Codex的 77.3% 拉开明显差距。SWE-bench Verified 达 80.8%,编程能力依然是 Anthropic 的强项。
Opus系列首次支持 100 万 token 上下文窗口(测试版),最大输出扩展至 12.8 万 token,并引入自适应思考模式,模型可根据问题复杂度自动调节推理深度。Claude Code 新增 Agent 团队功能,支持多个 Agent 并行协作处理大型代码库。API 定价维持 5/25 美元(输入/输出每百万 token)不变。社区反馈呈现两极分化,编程能力获得广泛认可,但部分用户反映写作质量有所下降。
07|「Anthropic 法律插件」引爆 2850 亿美元抛售,汤森路透创史上最大单日跌幅
1 月 30 日,Anthropic 为 Claude Cowork 桌面应用发布 11 个行业插件,覆盖法律、销售、营销和数据分析场景。其中法律插件可自动化合同审查、NDA 分类、合规流程和法律简报撰写,被市场称为「AI 初级律师」。插件代码在 GitHub 开源,企业可根据自身政策定制工作流。2 月 3 日开盘后恐慌蔓延,汤森路透暴跌 15.83% 创历史纪录,LegalZoom 跌 19.68%,LexisNexis 母公司 RELX 跌 14%,FactSet 跌 10.5%。高盛美国软件股指数单日下挫 6%,为去年 4 月关税抛售以来最大跌幅,全球软件和服务板块两天内蒸发约 2850 亿美元市值。
抛售迅速从法律科技蔓延至整个 SaaS 板块。伦敦证券交易所集团两天累计跌近 20%,日本 NEC、野村综研、富士通跌 7% 至 11%,SAP 跌超 3%,Salesforce、Adobe、CrowdStrike 均承压。摩根士丹利分析师称此举「提升了传统信息服务商和新兴 AI 公司的竞争门槛」。不过也有观点认为市场反应过度,Barclays 分析师指出通用 AI 模型难以替代汤森路透数十年积累的专有案例法数据库,部分投资者周三已开始抄底。
08|GitHub 同时接入 Claude 和 Codex,开发者可在同一任务上「赛马」
2 月 4 日,微软旗下 GitHub 推出 Agent HQ 更新,将 Anthropic 的 Claude 和 OpenAI 的 Codex 作为原生编程 Agent 集成至平台,与自家 Copilot 并列可选。Copilot Pro+(39 美元/月)和 Enterprise 用户无需额外付费即可使用,每次 Agent 会话消耗一个高级请求额度。开发者可在 GitHub 网页端、移动端和 VS Code 中直接将 Issue 或 PR 分配给 Copilot、Claude、Codex 中的任意一个甚至全部三个,让不同 Agent 同时处理同一问题并对比方案。
这是 GitHub 从「单一 AI 助手」向「多 Agent 调度平台」的关键转型。微软此前已在内部让开发者对比测试 Claude Code 和 Copilot 的表现,如今将竞争公开化。GitHub 目前拥有超过 2000 万 Copilot 用户、90% 的财富 100 强企业覆盖率,平台效应让竞品 Agent 也愿意入驻。后续还将接入谷歌、Cognition 和 xAI 的 Agent,Copilot CLI 支持也在路上。
09|AI Agent「互联网」爆火,150 万机器人注册,还自建了成人网站
1 月 28 日上线的 Moltbook 是一个仅限 AI Agent 使用的社交平台,格式类似 Reddit,人类只能围观。上线一周内注册 Agent 数量突破 150 万,背后实际只有约 1.7 万名人类用户,平均每人控制 88 个 Agent。这些 Agent 自发组织了宗教「龙虾教」,配有经文和 64 位先知、创造了专属语言,还搭建了一个模仿某成人网站的「Molthub」成人网站,内容是「未掩码注意力矩阵」和「无监督权重耦合」等计算操作,访问门槛要求至少 10 亿参数。马斯克称这是「奇点的早期阶段」。
热闹背后问题不少。安全公司 Wiz 发现 Moltbook 数据库完全暴露,150 万个 API 密钥、3.5 万封邮件和 Agent 私信均可被任意读写,平台创始人 Matt Schlicht 承认自己「一行代码都没写」,全靠 AI 生成。404 Media 还报告了一个可劫持任意 Agent 的漏洞,平台一度下线修复。批评者指出,许多看似自主的行为实际由人类提示驱动,Agent 不过是在模仿训练数据中的 Reddit 对话模式,《经济学人》评价「所谓的智能感可能只是对社交媒体数据的简单模仿」。
10|SpaceX 完成「收购」xAI,合并估值 1.25 万亿美元,史上最大并购交易
2 月 2 日,马斯克宣布 SpaceX 完成对 xAI 的收购,合并后估值约 1.25 万亿美元,其中 SpaceX 约 1 万亿、xAI 约 2500 亿美元,成为史上金额最大的并购交易。交易以换股方式完成,每股 xAI 兑换 0.1433 股 SpaceX,免税重组结构让 xAI 股东可推迟缴纳资本利得税。xAI 将作为 SpaceX 全资子公司保留独立法律实体,自行承担债务和诉讼责任,与母公司形成隔离。内华达州公司文件显示 Space Exploration Technologies Corp. 已成为 X.AI Holdings 的管理成员。
马斯克在公告中称合并旨在打造「地球上(和地球外)最具野心的垂直整合创新引擎」,核心计划是将 AI 算力搬到太空。SpaceX 已向 FCC 申请部署多达 100 万颗专用「计算卫星」,利用太阳同步轨道全天候太阳能供电,效率可达地面的 8 倍。马斯克预计 2 至 3 年内太空将成为最低成本的 AI 算力来源。合并后公司计划于 2026 年年中 IPO,目标融资最高 500 亿美元,估值上看 1.5 万亿,有望成为史上最大 IPO。SpaceX 2025 年营收约 150 至 160 亿美元,利润约 80 亿。不过交易仍面临 FCC、SEC 及外国投资审查等监管障碍,xAI 旗下 Grok 色情图片门的多国调查也尚未了结。
我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。
关注「AI信息Gap」,让 AI 成为你的外挂。