news 2026/1/2 11:50:15

10分钟本地部署大模型(phi-4和千问2.5),打造永不下线的AI助手

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
10分钟本地部署大模型(phi-4和千问2.5),打造永不下线的AI助手

本文详细介绍了大模型本地部署全过程,包括安装Ollama、下载phi-4和千问2.5模型、配置环境及安装浏览器插件。本地大模型免费、快速、安全、可控且永不断线。整个过程仅需35分钟,无需编程基础,适合各种配置电脑。文章还讲解了硬件要求、模型选择、量化概念及联网搜索设置,帮助读者打造自己的私人AI助手。


本文除了介绍安装大模型 phi-4 和 千问 2.5以外,还会详细介绍大模型本地部署的一些概念,适合感兴趣的朋友阅读,,完整阅读预计 10分钟。

如果你只想看安装部分,可以跳着看哦~

我现在的生活已经离不开 AI 了,他帮我度过了许多工作中的卡壳时刻。

不过我经常遇到:

在飞机上赶方案,正好卡住,想找 AI 帮忙,但是许多航班并没有网络服务。

需要处理公司内部事务,需要 AI 帮忙分析,但是…不敢把内容传到其他平台。

急需一个本地能跑的大模型,如果能联网搜索,就更好了。

看完本文,你就能收获一个能联网搜索的本地 AI 对话软件。

本地大模型的优势:

🆓完全免费:不用每月支付 ChatGPT Plus 的订阅费

🚀速度飞快:本地运行,不用等待网络延迟(快慢取决于你的电脑配置)

🔒隐私安全:所有对话都在你自己电脑上完成,数据安全有保障

💪完全控制:可以自由选择和调整模型

永不掉线:不需要联网也能用,在飞机上、火车上没有网络也能随时可用

简单来说,100% 本地运行,100% 安全,100% 免费。

而整个过程只需要 35 分钟,并且不需要任何编程基础。

⏱️ 安装 Ollama:10分钟

⏱️ 下载模型:15分钟(取决于网速)

⏱️ 安装浏览器插件:5分钟

⏱️ 设置和测试:5分钟

Ps. 如果部署出错,可以在后台留言,我尽可能帮你解决。

开始之前

需要检查电脑配置

/ 01

懒得看的可以直接跳到二节。

01

什么样的配置能跑本地模型?

简单理解,大部分能运行吃鸡的游戏都能安装大模型。

大模型的运行主要看显存,硬件配置上,最基础的配置需要至少8GB显存或统一内存,不过这种配置只能跑4bit量化(先不用管量化的概念)的7B小模型,效果和性能都比较一般。

如果想要日常使用,建议配置16GB显存,这样可以跑INT8量化的13B模型,或者完整加载7B模型,使用体验会好很多。

比较理想的配置是24GB显存,可以完整加载13B模型,量化后甚至可以跑更大的模型。

如果是专业开发,最好是 32GB及以上的显存,这样就能玩转更多大模型,也有更好的扩展性。

说到实际使用体验,消费级显卡大概需要2-4秒才能给出回复,专业显卡可以做到1-2秒,如果用CPU推理可能要等5-10秒。

另外,本地大模型运行时,最好预留30%的显存给系统开销,特别是长对话可能会逐渐累积显存占用。

02

检查我的配置

Windows用户

按下 Win + X,选择"系统",在系统页面可以查看内存大小。

按下 Win + X,选择"设备管理器",在设备管理器中可以查看显卡型号。

如果“显示适配器”显示 Inten® HD Graphics xxxx ,意味着你的设备是集显,虽然说不完全不能装,但可能性能会比较糟糕。

Mac用户

点击左上角苹果图标,选择"关于本机",可以看到内存大小和芯片型号。

03

基础配置要求

Windows电脑配置要求:

💻 内存:最少 8GB,建议 16GB

🎮 显卡:需要 NVIDIA 显卡,显存至少 4GB(比如 GTX 1060 或更好的)

🔧 CPU:2014 年后的CPU一般都可以

💾 硬盘:至少要有 20GB 的空闲空间

推荐配置:

入门级可以选 RTX 3060 12GB,

主流配置是 RTX 4080 16GB,

高端就是 RTX 4090 24GB(也可以等 5090…)。

Mac电脑配置要求:

Intel Mac:

💻 内存:最少 8GB,建议 16GB

M系列 Mac(M4/M3/M2/M1):

💻 统一内存:最少 8GB,建议 16GB 或以上

⚡ 性能提示:统一内存越大,运行越流畅

推荐配置:

M1 Pro 及以上的机型(16GB以上统一内存)都可以尝试。

推荐 M4 Pro 以上机型,性价比最高。

开始安装 Ollama

/ 02

Ollama 是本地跑开源大模型最好的软件之一,不管是 windows 还是Mac,都能通过它跑各类模型。

浏览器打开 ollama.com ,点击下载按钮,选择对应的操作系统可以了。

安装Ollama的流程及其简单,直接无脑下一步即可。

接下来运行控制台。Windows 按下 Win + R ,输入cmd。

苹果用户找到 “终端” ,启动。

输入

ollama -v

看到下面的信息就表示安装成功了。

ollama version is 0.5.4

如果没有安装成功,请重新安装试试,或者后台留言。

挑选合适的模型

/ 03

已经安装好了 Ollama 之后,接下来就是选择合适的模型。

01

推荐模型

如果你平时使用英文环境,推荐:

phi-4 llama 3.2 mixtral gemma2

如果你平时使用中文环境,推荐:

qwen2.5 glm4

如果你想要使用大模型写代码,推荐:

qwen2.5-coder

接下来,就是挑选合适的模型尺寸。

模型尺寸可以在 ollama.com/search 上查看

下面蓝色的标签含义是:模型支持的尺寸,比如 千问(qwen2.5)模型就有 0.5b - 72b 等多种尺寸可选。

进入模型介绍页面后,还可以点 Tags 查看模型的所有尺寸。

Ollama 的模型命名相对规则,遵循下面规则。

02

大模型的尺寸有哪些?

从小到大来说,目前主流的大模型尺寸大概:

· 1B左右的小模型能做一些基础的对话和补全:比如 llama3.2 就只有 1B。

· 7B是目前最受欢迎的尺寸,速度快而且可以应付大部分对话与思考场景。像 Llama3.1-8B、Mistral-7B都是这个大小,在家用显卡上就能跑,而且效果已经相当不错。

· 13B算是性能和资源消耗的平衡点,比如 Qwen2.5-14B。这个尺寸的模型能力明显比7B强,但对硬件要求也更高。

· 30B-35B是专业级需求性价比最高的尺寸,这个档位的开源大模型不太多,一些不错的比如Yi-34B 或 Qwen2.5-32B。

· 70B现在是开源大模型的天花板级别,像Llama2-70B、Qwen2.5-72B 就是这个量级。不过一般人在本地很难跑起来,得多个显卡才行,主要是研究机构和大厂在用。

· 更大的模型比如GPT-4,参数量可能上千亿,具体多大外界也不太清楚(据说 4o-mini 只有 8b,但没有官方证实),但这种级别的模型需要大量算力和优化技术支持,一般都是通过API调用。

为了便于分辨显存和大模型之间的关系,我简单列了一个关系表。

如果觉得模糊,后台回复“显卡”下载原版高清版本。

显卡可运行大模型关系表:

03

什么是大模型量化?

什么是量化?

量化就是把AI模型中的数字变得更"简单"。原本模型里的数字精确到小数点后很多位,量化后用更简单的数字代替,这样可以让模型变得更小,运行更快。

核心概念:

用更省空间的方式表示数字。比如:

  • 原始数字:3.14159265359 → 量化后:3.14
  • 原始数字:9.99999999999 → 量化后:10

通俗的例子,就像微信发照片:

  • 原图:超清晰,但文件很大
  • 压缩图:稍微模糊一点,但文件小很多
  • 实际聊天时,压缩图也够用

为什么要量化?

没有量化的问题:

  • 模型太大,家用电脑带不动
  • 运行太慢,响应不及时
  • 需要很贵的显卡

量化后的好处:

  • 体积变小,普通电脑也能用
  • 运行变快,响应更及时
  • 便宜的显卡也能跑

04

或者安装下面的模型?

了解基本概念过后,我们就可以更好地挑选合适自己的大模型了。

我们可以点击开始按钮,输入 cmd 之后回车,打开命令控制台。

Ollama 的安装指令是:

ollama run 模型名称

推荐你使用:

ollama run qwen2.5:3b

ollama run qwen2.5:7b

ollama run qwen2.5:14b

ollama run phi4

ollama run glm4

输入指令之后,如果你已经下载好了模型,就会直接进进入对话,如果没有,就会进入下载流程。

当你看到这个界面的时候,恭喜你,你已经完成了大模型的本地部署。

但丑丑的控制台体验不好,我们要想办法搞一个好看的界面。

下载一个好用的浏览器插件

/ 04

这里推荐一个开源的聊天界面:page-assist

这是一个体验极佳的开源插件,整体交互体验类似ChatGPT。

首先,先访问 github ,安装或者下载浏览器插件。

https://github.com/n4ze3m/page-assist

如果你能访问谷歌,就点击右侧的链接直接安装;

如果你不能访问谷歌,就点击右下角的 Release ,下载官方安装包。

下载完成之后,找到一个合适的地方,解压缩。

推荐保存到 D盘的 Program Files 文件夹下面。

下载完成后,进入谷歌浏览器,然后点击右上角,找到管理扩展程序。

打开开发者模式之后,点击加载已解压的扩展程序。

找到刚才保存的位置,点击选择文件夹就可以了。

这个时候,地址栏右侧,有一个 气泡的按钮,点击就可以启动了。

现在你就可以使用本地的 AI 了!

进阶:联网搜索

/ 05

我们需要先安装一个内容解析的模型,推荐使用:

ollama run nomic-embed-text

然后点击 RAG 设置,选择刚才下载好的模型,点击保存。

再创建新聊天,你就拥有了你自己的 秘塔搜索 或者 kimi啦!

让我们试一试搜索最新的信息,确认 AI 是从网上找的答案。

完美!

​最后

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包:

  • ✅AI大模型学习路线图
  • ✅Agent行业报告
  • ✅100集大模型视频教程
  • ✅大模型书籍PDF
  • ✅DeepSeek教程
  • ✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
​​

为什么说现在普通人就业/升职加薪的首选是AI大模型?

人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。


智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200%,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

​​

资料包有什么?

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

​​​​

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/29 15:00:13

网约车服务端线上流量巡检与测试验收技术

网约车服务端承接了网约车核心交易流程整体链路串联工作,其涵盖交易细粒度的场景达百万级别,核心交易链路涉及几百个下游服务。这督促我们的质量保障手段要粗细结合,既能保障核心业务的服务可用性,又要保障海量用户场景的正确运行…

作者头像 李华
网站建设 2025/12/29 7:44:54

公考日记7

乘法:

作者头像 李华
网站建设 2025/12/29 14:10:53

科研实验室温湿度监控新范式:以太网 POE 技术全场景解决方案

科研实验室利用以太网POE供电温湿度传感器进行温湿度监控系统的方案设计需要考虑哪些因素?结合科研实验室的场景特殊性、POE 技术特性及温湿度监控的核心需求,方案设计需重点考虑以下8 大核心因素,覆盖技术选型、场景适配、系统稳定性、合规性…

作者头像 李华
网站建设 2025/12/31 10:25:46

探索SAR ADC:45nm工艺下的高速高精度设计

SAR ADC 10bit 100M采样时钟 转换速率50M/s ENOB 9.8bit gpdk 45nm cadence 管方学习教程电路 两百多页文档 电路包括但不限于:栅压自举开关 CDAC 动态比较器 桥接电容 SAR 逻辑电路 都有testbench安装好就可以直接跑仿真 仿真包含整体电路和子模块电路所有的 …

作者头像 李华