大模型实战（一）：关于如何在个人电脑或者MAC笔记本上通过Xinference来部署开源大模型-育师

一、关于Xinference的介绍

Xorbits Inference (以下简称Xinference) 是一个开源平台，用于简化各种 AI 模型的运行和集成。借助 Xinference，您可以使用任何开源 LLM、嵌入模型和多模态模型在云端、本地服务器，甚至在您的笔记本电脑上进行推理，并创建强大的 AI 应用。这意味着您可以根据自己的需求和偏好，轻松地在不同的模型之间进行切换。其功能特点简介如下：

1.1 支持的模型种类

大语言模型：包括但不限于qwen2.5、baichuan、deepseek、glm-4v、gemma、mistral 等场景的语言模型；‍
Embedding模型：有Jina-embeddings 、bge-large-zh、m3e、text2vec等嵌入模型；
Rerank 模型：有bge-reranker-large、jina-reranker-v2等重排模型；
图像模型：有stable-diffusion、FLUX.1等图像模型；
语音模型：有 Belle、ChatTTS 以及 whisper等语音模型；视频模型：有CogVideoX-2b和CogVideoX-5b 两个模型；
自定义模型：需要先注册，然后才可以在这里看到自定义的大模型。

1.2 支持的部署方式‍‍‍本地运行：

本地运行：在Python环境下，使用终端命令行的方式进行部署；
集群中部署：对于个人用户来说用不上，虽然现在都在上云，但是 Kubernetes 的使用还是多存在于企业中；
使用Docker部署：通过docker run命令在拥有英伟达显卡的机器上运行或者在只有CPU的机器上运行。

1.3 支持的推理引擎

Transformers 引擎：PyTorch(transformers) 引擎支持几乎所有的最新模型，这是 Pytorch 模型默认使用的引擎；
vLLM 引擎：vLLM 是一个支持高并发的高性能大模型推理引擎。当满足以下条件时，Xinference 会自动选择 vllm 作为引擎来达到更高的吞吐量：当模型格式为****pytorch 时，量化选项需为 none；当模型格式为 awq 时，量化选项需为 Int4；当模型格式为 gptq 时，量化选项需为 Int3 、 Int4 或者 Int8；操作系统为 Linux 并且至少有一个支持 CUDA 的设备；自定义模型的 model_family 字段和内置模型的 model_name 字段在 vLLM 的支持列表中。（⚠️本地部署大模型时候模型参数的选择可参考该部分内容）
目前，vLLM 支持的模型包括：

Llama.cpp 引擎：Xinference 通过llama-cpp-python支持gguf格式的模型。建议根据当前使用的硬件手动安装依赖，从而获得最佳的加速效果；
SGLang 引擎：SGLang 具有基于 RadixAttention 的高性能推理运行时。它通过在多个调用之间自动重用KV缓存，显著加速了复杂 LLM 程序的执行。它还支持其他常见推理技术，如连续批处理和张量并行处理；
MLX 引擎：MLX-lm 用来在苹果 silicon 芯片上提供高效的 LLM 推理。

1.4 支持与第三方库集成

Xinference 能够无缝集成和部署开源 AI 模型，因此支持 AI 领域主流工具包。Xinference 可以与以下第三方库一起使用：

LangChain Text Embedding Models and LLMs
LlamaIndex Xinference LLM
Dify
Chatbox

1.5 灵活的API和接口

Xinference提供了多种与模型交互的接口，包括兼容OpenAI的RESTful API（支持函数调用）、RPC、命令行界面和Web UI，实现了无缝的模型管理和交互。

二、Xinference界面简介‍‍

在本地部署完Xinference后，我们可以通过访问 localhost:9997/ui （localhost为你在本机的ip）就可以看到这样一个页面：

平台左边菜单栏主要包括以下四个部分：

Launch Model：模型仓库，目前 Xinference 里内置支持的模型，包括大语言模型、嵌入模型、Rerank模型、图像模型、音频模型、视频模型、自定义模型；
Running Models：运行实例，在 Xinference 中已经下载和运行起来的模型，可在该页面查看；
Register Model：模型注册，对于 Custom Models 来说，需要先注册，才能运行；
Cluster Information：集群信息，在这个页面里可以看到项目运行时的资源消耗情况。

2.1 Launch Model

在模型仓库页面支持3种模型筛选方式，操作方式为先选择模型类型（如语言模型），再选择筛选方式，共有三种方式可选：

Model Ability：by generate / chat / vl-chat；
Status：by favorite / cached（部署后可看到该选项）；
按模型名称或者描述进行筛选；
‍‍‍Search for model name and description：by 模型名称和描述进行筛选。‍

2.2 Running Models

在部署前该页面无更多信息显示，部署后在该页面可看到已部署模型的信息，且当服务关闭后，该页面信息会消失，再次拉起该服务时，需要在Launch Model页面筛选出模型状态Status = cached的模型后，点击页面左下角的小火箭🚀按钮重新部署即可。

部署前页面显示

部署后页面显示‍

再次部署时的操作，在模型仓库筛选模型状态为cached的模型后，点击模型卡片，弹出模型参数页面后，点击参数页面左下角的小火箭即可再次部署，部署后可在该页面看到模型信息：

2.3 Register Models

模型注册页用户可以通过下载官方支持的模型种类，并将其放置到指定的容器挂载目录下，进而在Xinference的模型注册页面进行注册。这一过程允许用户将本地的AI模型集成到Xinference平台中，以便进行后续的管理和部署。

在注册新模型时，用户需要填写模型的相关信息，如模型类型（如LLM、embedding、rerank等）、模型名称、模型描述、上下文长度、模型语言、模型能力以及模型格式等。这些信息有助于Xinference平台对模型进行准确识别和管理。

2.4 Cluster Information

在该页面可以看到本地部署后模型运行的集群信息：

三、个人电脑安装Xinference及大模型本地化部署实战‍‍‍‍‍‍‍‍

3.1 Python及相关依赖安装

Xinference在Linux, Windows, MacOS上都可以通过pip来安装。如果需要使用 Xinference进行模型推理，可以根据不同的模型来指定不同的引擎。

首先，安装Python环境‍‍‍‍‍‍‍

我们需要准备一个3.9以上的Python环境来运行Xinference，打开笔记本终端cmd或者通过VsCode的终端创建虚拟环境并安装相关依赖。

conda create --name xinfer_env310 python=3.10

然后，在安装完成后，激活环境

conda activate xinfer_env310

接着，安装必要的依赖

pip install torch # 若上述命令安装失败，则可使用下面的torch官方安装命令进行安装 conda install pytorch torchvision -c pytorch

pytorch安装成功后，安装transformers框架，命令如下所示：

pip install "transformers>=4.36.0"

⚠️在此框架安装过程中，报了一个包版本不匹配的错误信息如下：

故需要针对该安装包进行版本降级

pip install sympy==1.13.1

安装成功后，再重新安装transformers框架，出现以下界面信息时表示安装成功：

最后，安装sentence-transformers框架，命令行如下：

pip install "sentence-transformers>=3.2.0"

等待安装成功，若成功则界面信息如下所示：

说明：sentence-transformers是一个基于Python的库，它专门用于句子、文本和图像的嵌入。这个库可以计算100多种语言的文本嵌入，并且这些嵌入可以轻松地用于语义文本相似性、语义搜索和同义词挖掘等任务。

3.2 Xinference安装及服务启用

3.2.1 Xinference安装

使用以下命令行安装Xinference：

pip install xinference

安装成功后，界面信息如下所示：

至此安装完成后，用户可运行以下命令进行推理加速（可选）：

Apple M系列

CMAKE_ARGS="-DLLAMA_METAL=on" pip install llama-cpp-python

英伟达显卡

CMAKE_ARGS="-DLLAMA_CUBLAS=on" pip install llama-cpp-python

AMD 显卡

CMAKE_ARGS="-DLLAMA_HIPBLAS=on" pip install llama-cpp-python

3.2.2 启用Xinference本地服务

使用以下命令拉起本地的Xinference服务：

xinference-local --host 0.0.0.0 --port 9997

若服务启动成功，则可以在终端窗口看到如下信息：

恭喜！您已经在本地拉起了Xinference服务。一旦Xinference服务运行起来，可以有多种方式来使用，包括使用网页、cURL命令、命令行或者是Xinference的Python SDK。可以通过访问http://127.0.0.1:9997/ui来使用UI，访问http://127.0.0.1:9997/docs来查看API文档。

那么，若想要终止该服务，在键盘输入：CTRL + C 即可。

⚠️若在部署后未正确关闭页面，当通过终端再次拉起服务时候，可能会拉起失败，原因可能是端口被占用，报错日志信息如下所示：

可先查看被占用的端口，在终端运行以下命令：

lsof -i :9997

可以看到端口果然被占用了：

找到对应的PID后，可以使用kill命令结束该进程：

kill -9 55016

终止进程后，可重新拉起服务。

3.3 本地化部署大模型

3.3.1 本地化部署大语言模型Qwen2.5-Instruct

由于笔者笔记本配置的限制，这里尝试部署一个15亿参数的千问大模型，具体操作如下：

首先，从Running Models页面，选择Language Model后，通过输入框输入模型信息进行模型筛选：

点击筛选出的模型卡片，进入模型下载页面，进行模型参数的配置：

以下是可选参数（optional）页面，页面的参数都可以使用默认的，不重新设置：

LLM模型参数选择说明：

Model Engine：在加载LLM模型之前，首先需要选择具体的推理引擎，所能运行的引擎与model_format和quantization参数息息相关，如在这里选择推理引擎llama.cpp后，model_format会自动选中格式ggufv2；

Model Format：模型格式，可以选择量化和非量化的格式，非量化的格式是pytorch，量化格式有ggml、gptq、awq等；

Model Size：模型的参数量大小，如qwen2.5-instruct的话，则有0.5B、1.5B、3B、7B、14B、72B等选项；

Quantization：量化精度，有4bit、8bit等量化精度选择；

N-GPU：选择使用第几个GPU；

Model UID（可选）：模型自定义名称，不填的话就默认用原始模型名称；

Replica：在部署深度学习模型时，特别是在使用像TensorFlow这样的分布式训练框架时，replica这个概念经常出现。它指的是模型或变量的一个副本，这些副本可以分布在不同的计算设备（如GPU或TPU）上以加速训练过程。

在参数填写完成后，即可点击左边的火箭🚀图标按钮开始部署模型，部署时后台会根据参数选择下载量化或非量化的LLM模型。

部署完成后，界面会自动跳转到Running Models菜单，在LANGUAGE MODELS标签中，我们可以看到部署好的该模型。

点击模型列表中Actions下面的【Launch Web UI】按钮即可打开语言模型的聊天界面，您可在该界面和语言模型进行对话啦！

至此，您已经通过Xinference平台将语言模型qwen2.5-instruct部署到本地了，可展开相应的应用啦！

同时，也可以在Cluster Information界面看到该模型运行时的集群信息：

不使用模型时，为释放笔记本资源，您也可以点击Actions下面的【Terminate Model】按钮终止该模型的运行。

3.3.2 本地化部署嵌入模型bge-large-zh

按照语言模型部署的方式，继续在本地部署一个嵌入模型bge-large-zh。

首先，筛选模型：

然后，配置模型参数：

我们可以看到这里需要配置的参数要比语言模型的少很多，可默认该参数，直接点击左下角的小火箭按钮下载部署，可在终端页面查看到模型下载的日志信息：

等待模型下载完成后，可在Running Models进行查看：

可以看到嵌入模型无Web UI页面。

知识点补充：关于Embedding模型权重少见的原因

数据隐私和安全性：Embedding模型的训练通常涉及大量的用户数据，如文本、图像等。这些数据往往包含敏感信息，出于隐私和安全性考虑，很多机构和公司不愿意公开这些模型的权重，以避免数据泄露的风险。
商业价值：Embedding模型在推荐系统、搜索引擎和其他需要高效相似度计算的应用中具有巨大的商业价值。许多公司利用这些模型获得竞争优势，因此不愿意将这些权重公开，以保护其商业机密和市场份额。
模型专用性：Embedding模型通常是高度定制化的，针对特定数据集和应用场景进行训练。公开这些权重可能并不能直接用于其他应用，需要大量的调整和再训练。这使得这些模型的通用性较低，限制了开源的动机。

3.3.3 本地化部署重排序模型bge-reanker-large

按照上述模型部署的方式，我们继续在本地部署一个重排序模型bge-reanker-v2-m3（提示：可根据自己的机器能够适配的模型参数进行模型选择）。

首先，筛选模型：

然后，配置模型参数：

同样地，该模型可配置的参数同嵌入模型一样，我们依旧默认该参数，然后点击左下角的小火箭按钮就行模型下载部署，可查看模型下载信息如下所示：

等待模型下载完成后，可在Running Models进行查看：

可以看到重排序模型无Web UI页面。

知识点补充：关于Rerank模型权重少见的原因

复杂性和专用性：Rerank模型通常是在特定领域和应用场景下进行训练的，结合了大量上下文信息和用户行为数据。这样的模型在其他场景下可能效果不佳，需要重新训练或调整。这种专用性使得它们不适合广泛开源。
数据稀缺和标注成本：Rerank模型需要大量的标注数据，这些数据需要手动标注并且通常涉及复杂的上下文关系。收集和标注这些数据成本高昂，且标注数据往往具有高度的专用性，公开模型权重的同时也难以提供相应的数据集，限制了其开源的可能性。
商业和战略考量：像搜索引擎和推荐系统这样的应用，对于Rerank模型有着至关重要的依赖。这些领域的公司往往通过这些模型优化用户体验和提升商业效果。因此，出于商业和战略考虑，这些模型的权重通常不会公开，以保持竞争优势。

总结

本文对开源大模型管理平台Xinference做了简单的介绍，分享了如何在个人电脑上通过Python环境来安装Xinference，并通过Xinference在本地分别部署了大语言模型（Qwen2.5-Instruct-1.5B）、嵌入模型（bge-large-zh）以及重排序模型（bge-reanker-v2-m3）。接下来，我们可以尝试将这3个模型集成到Dify中，并进行知识库等智能体Agent的开发的应用。

参考阅读：

1.https://inference.readthedocs.io/zh-cn/latest/getting_started/installation.html；2.https://xorbits.cn.

写作不易，若本文对您有帮助，请帮忙点个赞和在看，也可以分享给更多的朋友；

为确保您能收到每一篇文章，可通过下方二维码或者搜一搜关注并在主页右上角设置星标。

‍

想入门 AI 大模型却找不到清晰方向？备考大厂 AI 岗还在四处搜集零散资料？别再浪费时间啦！2025 年AI 大模型全套学习资料已整理完毕，从学习路线到面试真题，从工具教程到行业报告，一站式覆盖你的所有需求，现在全部免费分享！

👇👇扫码免费领取全部内容👇👇

一、学习必备：100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT，帮你看透 AI 趋势

想了解大模型的行业动态、商业落地案例？大模型电子书？这份资料帮你站在 “行业高度” 学 AI：

1. 100+本大模型方向电子书

2. 26 份行业研究报告：覆盖多领域实践与趋势

报告包含阿里、DeepSeek 等权威机构发布的核心内容，涵盖：

职业趋势：《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》；
商业落地：《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》；
领域细分：《AGI 在金融领域的应用报告》《AI GC 实践案例集》；
行业监测：《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

3. 600+套技术大会 PPT：听行业大咖讲实战

PPT 整理自 2024-2025 年热门技术大会，包含百度、腾讯、字节等企业的一线实践：

安全方向：《端侧大模型的安全建设》《大模型驱动安全升级（腾讯代码安全实践）》；
产品与创新：《大模型产品如何创新与创收》《AI 时代的新范式：构建 AI 产品》；
多模态与 Agent：《Step-Video 开源模型（视频生成进展）》《Agentic RAG 的现在与未来》；
工程落地：《从原型到生产：AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

二、求职必看：大厂 AI 岗面试 “弹药库”，300 + 真题 + 107 道面经直接抱走

想冲字节、腾讯、阿里、蔚来等大厂 AI 岗？这份面试资料帮你提前 “押题”，拒绝临场慌！

1. 107 道大厂面经：覆盖 Prompt、RAG、大模型应用工程师等热门岗位

面经整理自 2021-2025 年真实面试场景，包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题，每道题都附带思路解析：

2. 102 道 AI 大模型真题：直击大模型核心考点

针对大模型专属考题，从概念到实践全面覆盖，帮你理清底层逻辑：

3. 97 道 LLMs 真题：聚焦大型语言模型高频问题

专门拆解 LLMs 的核心痛点与解决方案，比如让很多人头疼的 “复读机问题”：

三、路线必明： AI 大模型学习路线图，1 张图理清核心内容

刚接触 AI 大模型，不知道该从哪学起？这份「AI大模型学习路线图」直接帮你划重点，不用再盲目摸索！

路线图涵盖 5 大核心板块，从基础到进阶层层递进：一步步带你从入门到进阶，从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L1阶段：了解大模型的基础知识，以及大模型在各个行业的应用和分析，学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段：攻坚篇丨RAG开发实战工坊

L2阶段：AI大模型RAG应用开发工程，主要学习RAG检索增强生成：包括Naive RAG、Advanced-RAG以及RAG性能评估，还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段：跃迁篇丨Agent智能体架构设计

L3阶段：大模型Agent应用架构进阶实现，主要学习LangChain、 LIamaIndex框架，也会学习到AutoGPT、 MetaGPT等多Agent系统，打造Agent智能体。

L4阶段：精进篇丨模型微调与私有化部署

L4阶段：大模型的微调和私有化部署，更加深入的探讨Transformer架构，学习大模型的微调技术，利用DeepSpeed、Lamam Factory等工具快速进行模型微调，并通过Ollama、vLLM等推理部署框架，实现模型的快速部署。

L5阶段：专题集丨特训篇【录播课】

四、资料领取：全套内容免费抱走，学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型，还是有基础想冲刺大厂、了解行业趋势，这份资料都能满足你！
现在只需按照提示操作，就能免费领取：

👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口？别犹豫，这份免费资料就是你的 “起跑线”！

大模型实战（一）：关于如何在个人电脑或者MAC笔记本上通过Xinference来部署开源大模型

一、学习必备：100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT，帮你看透 AI 趋势

1. 100+本大模型方向电子书

2. 26 份行业研究报告：覆盖多领域实践与趋势

3. 600+套技术大会 PPT：听行业大咖讲实战

二、求职必看：大厂 AI 岗面试 “弹药库”，300 + 真题 + 107 道面经直接抱走

1. 107 道大厂面经：覆盖 Prompt、RAG、大模型应用工程师等热门岗位

2. 102 道 AI 大模型真题：直击大模型核心考点

3. 97 道 LLMs 真题：聚焦大型语言模型高频问题

三、路线必明： AI 大模型学习路线图，1 张图理清核心内容

路线图涵盖 5 大核心板块，从基础到进阶层层递进：一步步带你从入门到进阶，从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L2阶段：攻坚篇丨RAG开发实战工坊

L3阶段：跃迁篇丨Agent智能体架构设计

L4阶段：精进篇丨模型微调与私有化部署

L5阶段：专题集丨特训篇【录播课】

四、资料领取：全套内容免费抱走，学 AI 不用再找第二份

ROFL-Player：英雄联盟回放数据解析的完整指南

HoneySelect2游戏优化终极指南：HS2-HF补丁深度应用

AppleRa1n终极指南：iOS 15-16激活锁绕过完整解决方案

AI手势识别模型怎么选？MediaPipe Hands稳定性实战评测

Z-Image-ComfyUI避坑指南：3个常见问题云端解决

终极指南：5分钟掌握免费拓扑图绘制神器

一、学习必备：100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT，帮你看透 AI 趋势

1. 100+本大模型方向电子书

2. 26 份行业研究报告：覆盖多领域实践与趋势

3. 600+套技术大会 PPT：听行业大咖讲实战

二、求职必看：大厂 AI 岗面试 “弹药库”，300 + 真题 + 107 道面经直接抱走

1. 107 道大厂面经：覆盖 Prompt、RAG、大模型应用工程师等热门岗位

2. 102 道 AI 大模型真题：直击大模型核心考点

3. 97 道 LLMs 真题：聚焦大型语言模型高频问题

三、路线必明： AI 大模型学习路线图，1 张图理清核心内容

路线图涵盖 5 大核心板块，从基础到进阶层层递进：一步步带你从入门到进阶，从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L2阶段：攻坚篇丨RAG开发实战工坊

L3阶段：跃迁篇丨Agent智能体架构设计

L4阶段：精进篇丨模型微调与私有化部署

L5阶段：专题集丨特训篇 【录播课】

四、资料领取：全套内容免费抱走，学 AI 不用再找第二份

ROFL-Player：英雄联盟回放数据解析的完整指南

HoneySelect2游戏优化终极指南：HS2-HF补丁深度应用

AppleRa1n终极指南：iOS 15-16激活锁绕过完整解决方案

AI手势识别模型怎么选？MediaPipe Hands稳定性实战评测

Z-Image-ComfyUI避坑指南：3个常见问题云端解决

终极指南：5分钟掌握免费拓扑图绘制神器

L5阶段：专题集丨特训篇【录播课】