从零开始学大模型：2025年国内外最新模型更新与趋势(收藏版)-育师

文章详细介绍了2025年国内外大模型最新更新，包括GLM、MiniMax等国内模型和OpenAI、Google等国外模型的发展。经过两年发展，国内外差距不断缩小，但国外在通用模型领域仍保持领先优势。Google、OpenAI、Anthropic等公司不仅性能交替领先，更重要的是把握行业趋势。文章分析了各类模型特点、性能及应用场景，为学习大模型的读者提供了全面参考。

当前大模型

•GLM：国内开源组更新通用模型GLM-4.7，推理模型GLM-4.7(Thinking Mode)；
•MiniMax：国内开源组更新通用模型MiniMax M2.1，推理模型MiniMax M2.1(Interleaved Thinking)；
•Seedance：国内闭源组更新通用模型doubao-Seed-1.8，推理模型doubao-Seed-1.8 thinking，生视频模型Seedance 1.5 pro；
•MiMO：国内开源组新增通用模型MiMo-V2-Flash；
•Gemini：国外闭源组更新通用模型Gemini 3 Flash；
•ChatGPT：国外闭源组更新生图模型GPT-Image-1.5；
•Wan：国内闭源组更新生视频模型Wan 2.6-视频，生图模型Wan 2.6-图像；
•OpenAI：国外闭源组更新通用模型GPT-5.2 Instant、推理模型GPT-5.2 Thinking，新增推理模型GPT-5.2 Pro；
•GLM：国内开源组更新通用模型GLM-4.6V；
•腾讯混元：国内闭源组更新通用模型HY 2.0，新增推理模型HY 2.0 Think；
•可灵AI：国内闭源组新增生视频模型可灵-视频O(mni)1、可灵视频 2.6，生图模型可灵-图像O1；
•字节豆包：国内闭源组更新生图模型Seedream 4.5；
•Runway：国外闭源组更新生视频模型Gen-4.5；
•Mistral：国外开源组新增通用模型Mistral Large 3、Ministral 3；
•DeepSeek：国内开源组更新通用模型DeepSeek-V3.2，推理模型DeepSeek-V3.2-Thinking、DeepSeek-V3.2-Speciale。

----- 国外部分 -----

经过了两年的发展，国内外AI大模型的差距在不断缩小，但整体国外仍有一个身位的领先优势，尤其是通用模型。Google、OpenAI、Anthropic这三家公司除了性能交替领先，更重要的是行业趋势目前仍然一直由这几家公司把握。

国外的大模型大多数都需要架梯翻墙才能访问，而且由于生成的内容相对自由，国内企业使用起来可能会要注意合规风险。

闭源组

通用类

•ChatGPT: https://chatgpt.com

OpenAI研发的大模型应用。2025年12月推出最新的通用模型GPT-5.2 Instant。除了便宜、快速，官网没有过多介绍这个新版模型。目前OpenAI模型整体实力确实不如Deepmind，但加上整个应用生态还是有一战之力。

•Gemini: https://gemini.google.com

Google Deepmind研发的大模型。2025年12月份发布了Gemini 3 Flash，成为Gemini App 和 Google AI模式的默认模型，其AI模式在捕捉问题细节和语义色彩方面表现得更加出色，可以实时整合本地信息与全网优质链接，提供逻辑严密、全面且视觉化呈现的回答。尽管官网介绍该版本也拥有thinking和deep think模型，但其主要定位是提升问题解决效率，于是将其归到通用模型一类。Gemini目前模型性能综合实力最强，结合搜索业务的Deep Research是行业标杆。

•Claude: https://claude.ai/

Anthropic研发的大模型。2025年11月发布Opus 4.5，目前Anthropic最强的模型。Agentic（智能体任务）和Tool Use（工具使用）这两个维度的能力为业界SOTA水平，最擅长的科目仍然是 Coding。Opus 4.5在视觉、数学、推理、深度研究、处理ppt和excel等日常任务上也较早期版本的Claude模型有较大提升，也是Anthropic迄今为止发布的最安全最稳健的对齐模型。

10月发布Haiku 4.5，在保持与Claude Sonnet 4相近性能的同时，实现了超过2倍的响应速度和仅为1/3的运营成本；

9月发布Sonnet 4.5，在构建复杂智能体和Computer Use方面表现最为出色。新增了上下文编辑功能和内存工具，使智能体能够运行更长时间，处理更复杂的任务能够在复杂的、多步骤的任务上保持超过30小时的专注；

曾经有段时间在LMSYS Arena跑分占据过首位，但后续并不热衷于刷分，版本更新也比较佛系，公认最强的领域是Coding*。*

•Grok: https://grok.x.ai/

一龙马斯克旗下的xAI研发的大模型，采用最新版本闭源早期版本开源的策略，其中v3.0版本已经开源。2025年11月发布最新版本v4.1。在LMSYS当了一天的老大就被友商Gemini超越。和4.0版本相比，4.1通过创新的智能体奖励模型训练方法，提升了模型的情商以及写作时“人味”，并大幅降低幻觉率。

•Mistral: https://mistral.ai/news/mistral-large-2407/

法国Mistral AI发布的闭源大模型。2025年5月发布Mistral 3 Medium。除了便宜，没有更多量化的公开指标。2024年7月发布了Mistral Large 2，拥有128K上下文，参数123B.

推理类

•OpenAI

2025年12月发布推理模型GPT-5.2 thinking，和 GPT-5.1 Thinking 相比，5.2 Thinking更擅长使用工具，科学、数学、代码能力更强，幻觉更少，长上下文整合更准确，专业图像理解更精确，安全性更高。

2025年12月发布专业推理模型GPT-5.2 Pro。除了$168/每百万token的API输出天价，别的介绍比较少。

•Gemini

Google Deepmind发布的推理模型，2025年11月份发布了Gemini 3 Pro和Gemini 3 Deep Think。在推理、多模态理解和智能体能力上实现了质的飞跃。Gemini 3 Pro在几乎所有主要的 AI 基准测试中都显著优于 2.5 Pro；Gemini 3 Deep Think作为全新的增强推理模式，在高难度测试中表现卓越，并在 ARC-AGI-2 上取得了45.1%的突破性成绩。

•Claude

Anthropic发布的推理模型，2025年11月发布Claude Opus 4.5 Extended Thinking；9月发布Claude Sonnet 4.5 Extended Thinking。

•Grok

xAI发布的推理模型，2025年11月发布Grok 4.1 Thinking。

•Magistral

Mistral发布的推理模型，2025年9月发布了的Magistral Medium v1.2，增加了多模态支持，提升了模型本身和工具使用时的智能。整体性能在第二梯队，主要优点是快。

图像类

•Google Deepmind

**Gemini 3 Pro Image(Nano Banana Pro)：**https://blog.google/technology/ai/nano-banana-pro/

2025年11月Google Deepmind更新的Gemini原生的图像生成能力。相比于前一个版本更擅长二创的Nano Banana，Pro版本基于Gemini 3强大的推理能力和世界知识，文生图的能力也显著加强，多语言文本的渲染大幅升级；二创时支持参考多达14张图像，并保持多达5个人物的一致性和相似度，以及更加精细化的图片局部编辑。

**Gemini 2.5 Flash Image(Nano Banana)：**https://gemini.google.com/

2025年8月Google Deepmind更新的Gemini原生的图像生成能力。相比于强大的专业生图模型Imagen，Gemini在生图质量不输前者的前提下，吸取更多对话模型的优点，让图像在多轮对话中可以保持更好的一致性，让图像生成和修改更可控。相比Imagen 4的原创能力，nano banana的强项是二创能力。

Imagen 4：https://deepmind.google/models/imagen/

Google Deepmind 2025年5月发布的AI图像生成模型。在LMSYS竞技场T2I子榜上Image 3长期霸榜，Imagen 4生图质量比3高，速度比3快，很可能扩大领先优势。

•OpenAI

**GPT-Image 1.5：**https://openai.com/zh-Hans-CN/index/new-chatgpt-images-is-here/

OpenAI 2025年12月发布的 GPT 原生的图像生成能力。和前个版本相比，指令遵循能力更强，文本渲染更出色，可以生成更多、更小的文字，但生成中文时存在不足；二次编辑更精准，保留更多重要细节；更准确保留人物ID，但多人物ID保持不足。低配版Nano Banana。

DALL·E 3: https://openai.com/dall-e-3

OpenAI研发的AI图像生成器。

•Midjourney: https://www.midjourney.com/

Midjourney研究实验室开发的生图模型，可以实现文字生图和图生图。2025年3月发布v7.0。和Stable Diffusion一起出道的生图元老，但是更新太过缓慢，听闻主程已离职，不知是否要退出历史年舞台了。

•Flux 2: FLUX.2 | Black Forest Labs

Black Forest Labs 2025年11月发布的生图模型，建立在潜在流匹配（latent flow matching）架构之上，并将图像生成与编辑功能结合在单一架构中。旗舰模型 FLUX.2 [pro] 在图像生成质量、在指令遵循和视觉保真度方面可以匹配SOTA模型，同时以更快的速度和更低的成本生成图像。自定义模型 FLUX.2 [flex] 支持控制模型参数，例如生成步数（steps）和引导系数（guidance scale），赋予开发者对质量、指令遵循及生成速度的完全控制权。

视频类

•Veo 3.1: https://deepmind.google/technologies/veo/

Google Deepmind在2025年10月发布的AI视频生成模型。相比5月份发布的3.0版本，音频生成、指令遵循、视频真实感这几个维度都有显著增强的同时，新增“插入”工具，可在视频中添加新元素并自动匹配光影。

•Gen-4.5: https://app.runwayml.com/

Runway在2025年12月发布的AI视频生成模型，保持了 Gen-4 的速度和效率，在不牺牲性能的前提下提供了突破性的质量，但在视频生成时，因果倒置、物体消失、场景成功率过高等局限性依然存在。Gen系列在视频生成模型的队伍中掉队了，本来打算要移除，看它还活着就先留着吧。

•Pika 2.2: https://www.pika.art/

Glen Pika在2023年11月发布的AI视频生成产品，支持文生视频、图生视频和视频生视频，2025年2月推出2.2版本，生成效果提升，加入了好玩但没啥实用性的Pikaafferts。

•Luma AI: https://www.lumalabs.ai/dream-machine/

Luma Labs在2025年9月发布的电影级视频生成产品，增加了CoT推理生成功能，使用专业ACES2065-1 EXR标准生成真正的高动态范围视频，支持10位、12位和16位格式，可以生成时长约10秒。

•Stable Video Diffusion: https://stability.ai/stable-video

Stablility AI发布的AI视频生成模型，以两个图像到视频模型的形式发布，能够以每秒 3 到 30 帧的可定制帧速率生成 14 帧和 25 帧，生成视频时长2-5秒。需下载代码布署本机使用，对电脑硬件配置有一定的要求。

•Sora 2: https://openai.com/index/sora-2/

OpenAI在2025年9月发布的AI视频生成模型，其Pro版本能够生成20秒的1080p视频，而plus版本则生成10秒的720p视频。和去年12月被迫上线的Sora相比，其进步体现在对真实物理世界的模拟、多模态的整合以及对生成过程的精细控制上。

•Midjourney：https://www.midjourney.com/

Midjourney研究实验室开发的视频生成模型，2025年6月发布v1.0。采用图像转视频（I2V）的工作流程，支持用户上传外部图像并进行动画处理。

音乐类

•Suno 5.0: https://suno.ai

Suno AI 2025年9月发布的音乐模型。相对于v4.0，完成了音质升级，达到了录音室级别.

AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型，我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

如果你也想通过学大模型技术去帮助就业和转行，可以扫描下方链接👇👇
大模型重磅福利：入门进阶全套104G学习资源包免费分享！

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

02.AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

04.大模型面试题目详解

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓