news 2026/2/1 2:07:29

Fun-Audio-Chat-8B 大型音频语言模型(Large Audio Language Model)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Fun-Audio-Chat-8B 大型音频语言模型(Large Audio Language Model)

Fun-Audio-Chat-8B 介绍

Fun-Audio-Chat-8B 是由 TONGYI Fun 团队开发的大型音频语言模型(Large Audio Language Model),专为自然、低延迟的语音交互设计,在语音问答、音频理解、语音函数调用等多个场景中表现优异,支持中英双语交互,采用 Apache 2.0 开源许可协议。(开源地址:https://huggingface.co/FunAudioLLM/Fun-Audio-Chat-8B)

核心特性

1. 双分辨率语音表征(Dual-Resolution Speech Representations)

创新采用 “5Hz 共享骨干网络 + 25Hz 精细化头部” 架构,相比其他模型常用的 12.5Hz 或 25Hz 帧速率,在保持高语音质量的前提下,将 GPU 计算量减少近 50%,兼顾效率与性能。

2. 同尺寸模型顶尖性能

在 8B 参数级别模型中,于多个权威基准测试中排名前列,覆盖语音问答、音频理解、语音交互等核心场景,涉及的基准测试包括:

  • 语音问答(Spoken QA):OpenAudioBench、VoiceBench
  • 语音转语音(Speech-to-Speech):UltraEval-Audio
  • 音频理解(Audio Understanding):MMAU、MMAU-Pro、MMSU
  • 语音函数调用(Speech Function Calling):Speech-ACEBench、Speech-BFCL、Speech-SmartInteract
  • 语音指令遵循(Speech Instruction-Following):VStyle

3. 全面的语音交互能力

支持多样化语音相关任务,满足复杂场景需求:

  • spoken QA:语音问答,直接通过语音输入提问并获取语音 / 文本答案
  • 音频理解:解析音频内容、情感、场景等信息
  • 语音函数调用:通过语音指令触发特定功能调用
  • 语音指令遵循:精准响应语音形式的指令要求
  • 语音共情(Voice Empathy):模拟共情式语音反馈,提升交互自然度

模型详情

属性具体信息
模型尺寸约 8B 参数
架构设计双分辨率语音表征(Dual-Resolution Speech Representations)
支持语言英语(English)、中文(Chinese)
许可协议Apache 2.0(可商用、可修改,需保留原版权声明)
张量类型BF16
关联模型配套依赖 Fun-CosyVoice3-0.5B-2512 模型

环境要求

基础依赖

  • Python 版本:3.12
  • PyTorch 版本:2.8.0
  • 必要工具:ffmpeg(音频处理依赖)
  • 其他依赖:torchaudio==2.8.0 及 requirements.txt 中指定的包

硬件要求

  • 推理(Inference):GPU 显存 ≥ 24GB
  • 训练(Training):4 块 80GB 显存 GPU(如 A100 80GB)

安装与部署

1. 环境配置步骤

bash

运行

# 克隆代码仓库(含子模块)gitclone --recurse-submodules https://github.com/FunAudioLLM/Fun-Audio-ChatcdFun-Audio-Chat# 安装 ffmpegaptinstallffmpeg# 创建并激活 Conda 环境conda create -n FunAudioChatpython=3.12-y conda activate FunAudioChat# 安装 PyTorch 及 torchaudio(适配 CUDA 12.8)pipinstalltorch==2.8.0torchaudio==2.8.0 --index-url https://download.pytorch.org/whl/cu128# 安装其他依赖pipinstall-r requirements.txt

2. 模型下载

支持通过 Hugging Face Hub 或 ModelScope 两种方式下载预训练模型,需同时下载主模型和配套依赖模型:

方式一:通过 Hugging Face Hub 下载

bash

运行

# 安装 huggingface-hub 工具pipinstallhuggingface-hub# 下载主模型 Fun-Audio-Chat-8Bhf download FunAudioLLM/Fun-Audio-Chat-8B --local-dir ./pretrained_models/Fun-Audio-Chat-8B# 下载配套模型 Fun-CosyVoice3-0.5B-2512hf download FunAudioLLM/Fun-CosyVoice3-0.5B-2512 --local-dir ./pretrained_models/Fun-CosyVoice3-0.5B-2512
方式二:通过 ModelScope 下载

bash

运行

# 下载主模型 Fun-Audio-Chat-8Bmodelscope download --model FunAudioLLM/Fun-Audio-Chat-8B --local_dir pretrained_models/Fun-Audio-Chat-8B# 下载配套模型 Fun-CosyVoice3-0.5B-2512modelscope download --model FunAudioLLM/Fun-CosyVoice3-0.5B-2512 --local_dir pretrained_models/Fun-CosyVoice3-0.5B-2512

3. 快速推理

配置完成后,可通过以下命令快速运行核心功能:

bash

运行

# 设置 Python 路径exportPYTHONPATH=`pwd`# 语音转文本(Speech-to-Text)python examples/infer_s2t.py# 语音转语音(Speech-to-Speech)python examples/infer_s2s.py

引用规范

若使用该模型进行学术研究或商业开发,建议引用相关论文:

bibtex

@article{funaudiochat2025, title={Fun-Audio-Chat Technical Report}, author={Qian Chen and Luyao Cheng and Chong Deng and Xiangang Li and Jiaqing Liu and Chao-Hong Tan and Wen Wang and Junhao Xu and Jieping Ye and Qinglin Zhang and Qiquan Zhang and Jingren Zhou}, year={2025}, eprint={2512.20156}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2512.20156}, } @misc{tan2025drvoiceparallelspeechtextvoice, title={DrVoice: Parallel Speech-Text Voice Conversation Model via Dual-Resolution Speech Representations}, author={Chao-Hong Tan and Qian Chen and Wen Wang and Chong Deng and Qinglin Zhang and Luyao Cheng and Hai Yu and Xin Zhang and Xiang Lv and Tianyu Zhao and Chong Zhang and Yukun Ma and Yafeng Chen and Hui Wang and Jiaqing Liu and Xiangang Li and Jieping Ye}, year={2025}, eprint={2506.09349}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.09349}, }

相关资源

  • 论文链接:Fun-Audio-Chat Technical Report、DrVoice
  • GitHub 代码库:https://github.com/FunAudioLLM/Fun-Audio-Chat
  • Demo 页面:参考官方仓库或 Hugging Face 模型页指引
  • 依赖项目:Transformers、LlamaFactory、Moshi、CosyVoice、Safetensors
  • https://ai-bot.cn/fun-audio-chat/
  • https://huggingface.co/FunAudioLLM/Fun-Audio-Chat-8B
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/30 8:51:41

Supabase Storage 终极指南:5分钟掌握云端文件管理利器

Supabase Storage 终极指南:5分钟掌握云端文件管理利器 【免费下载链接】storage S3 compatible object storage service that stores metadata in Postgres 项目地址: https://gitcode.com/gh_mirrors/st/storage Supabase Storage 是一款开源的 S3 兼容对象…

作者头像 李华
网站建设 2026/1/29 18:10:29

VnPy框架连接SimNow模拟交易环境:从4097错误到稳定连接的完整指南

VnPy框架连接SimNow模拟交易环境:从4097错误到稳定连接的完整指南 【免费下载链接】vnpy 基于Python的开源量化交易平台开发框架 项目地址: https://gitcode.com/vnpy/vnpy 作为量化交易新手,当你满怀期待地准备在SimNow模拟环境中测试策略时&…

作者头像 李华
网站建设 2026/1/25 8:36:53

PHP时间助手终极指南:中国节假日判断完整教程

你是否曾为计算中国节假日而头疼?面对复杂的调休安排,简单的周末判断往往无法满足实际需求。今天,我们来深入解析 zjkal/time-helper 项目中的中国节假日功能,帮助你轻松应对各种节假日处理场景。 【免费下载链接】time-helper 一…

作者头像 李华
网站建设 2026/1/30 10:15:08

国产操作系统学习心得:从基础操作到实践部署的进阶之路

JavaScript性能优化实战技术文章大纲性能优化的核心原则减少代码执行时间 降低内存占用 优化网络请求 提升渲染效率代码层面优化避免全局变量污染,使用模块化设计 减少DOM操作,批量更新代替频繁单次操作 使用事件委托替代大量事件监听器 优化循环结构&am…

作者头像 李华
网站建设 2026/1/30 9:28:19

DM 数据库从入门到实操:国产数据库技术学习心得

一、目录引言:国产数据库的发展与 DM 数据库优势DM 数据库安装与环境配置(附实操截图)实例创建与核心参数优化备份还原机制与实操步骤常用函数与 SQL 查询实战DM SQL 程序设计思路与案例实操常见问题及解决方案学习总结与展望二、引言随着国产…

作者头像 李华
网站建设 2026/1/26 10:50:51

多Git插件协同:构建高效的VS Code开发环境

多Git插件协同:构建高效的VS Code开发环境 【免费下载链接】vscode-gitlens 项目地址: https://gitcode.com/gh_mirrors/vsc/vscode-gitlens 在当今的开发工作流中,Git已成为版本控制的标配工具。然而,当多个Git增强插件在VS Code中相…

作者头像 李华