news 2026/3/3 6:23:50

LeVo引擎驱动:腾讯SongGeneration模型开源 多语言音乐创作迈入4分钟全曲时代

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
LeVo引擎驱动:腾讯SongGeneration模型开源 多语言音乐创作迈入4分钟全曲时代

LeVo引擎驱动:腾讯SongGeneration模型开源 多语言音乐创作迈入4分钟全曲时代

【免费下载链接】SongGeneration腾讯开源SongGeneration项目,基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术,既能融合人声与伴奏达到和谐统一,也可分别处理实现更高音质。模型在百万歌曲数据集上训练,支持中英文生成,效果媲美业界顶尖系统,为音乐创作带来突破性AI解决方案项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

近日,腾讯AILab正式发布SongGeneration开源项目,作为LeVo(High-Quality Song Generation with Multi-Preference Alignment)研究成果的官方权重仓库,该项目首次向公众开放了具备多偏好对齐能力的AI歌曲生成模型。通过提供完整的模型文件、推理脚本及基于百万歌曲数据集训练的 checkpoint,腾讯正推动音乐生成领域从片段创作向全曲工业化生产迈进。

模型矩阵全景:从基础版到多语言旗舰版的能力跃迁

SongGeneration目前已形成覆盖不同创作需求的完整模型矩阵,最新发布的6款模型在创作时长、语言支持和性能表现上实现阶梯式突破。基础版(SongGeneration-base)支持2分30秒的中文歌曲生成,在A100显卡上仅需10G显存即可运行,RFT(音乐质量评估指标)达1.26分;其升级版(base-new)首次实现中英双语创作,而base-full版本将创作时长扩展至4分30秒,满足流行歌曲完整结构需求。

旗舰级large模型凭借22G显存占用和1.51的RFT评分,成为当前开源领域性能最强的音乐生成模型。值得关注的是,即将发布的v1.5系列突破性支持英、中、西、日等多语言创作,其中small版本主打轻量化部署,base和large版本则保持4分30秒的全曲创作能力,标志着AI音乐创作正式进入多语言全球化应用阶段。

技术架构解密:双轨token系统实现人声乐器协同创作

SongGeneration的核心突破在于创新性的LeLM(音乐语言模型)与音乐编解码器架构。不同于传统单轨生成方案,LeLM首次实现混合token与双轨token的并行建模:混合token负责编码人声与伴奏的融合音频特征,确保演唱与乐器的和谐统一;双轨token则独立编码人声旋律线与伴奏声部,为人声清晰度和乐器层次感提供精细化控制。

如上图所示,该Logo融合音乐波形与神经网络节点元素,直观呈现AI与音乐创作的跨界融合。这一视觉符号既代表腾讯在音乐AI领域的技术主张,也暗示SongGeneration模型连接离散数据与连续音频的核心能力。

这种双层token设计使模型能够同时处理"整体和谐"与"细节分离"的创作需求。当进行旋律创作时,混合token确保人声与钢琴、吉他等伴奏乐器的调性统一;而在后期制作阶段,双轨token支持单独调整人声混响或乐器音量,极大提升创作灵活性。配合自研音乐编解码器,系统可将这些结构化token重建为44.1kHz高保真音频,实现从符号化创作到听觉体验的完整闭环。

该架构图清晰展示了LeLM与编解码器的协同工作流程。左侧的双轨token生成模块与右侧的音频重建系统形成完整 pipeline,这种模块化设计既保证了创作自由度,又确保了输出音频的专业级品质。

性能突破:开源模型首次媲美工业级创作系统

通过在百万歌曲数据集(Million Song Dataset)上的深度训练,SongGeneration在多项核心指标上实现对现有开源方案的全面超越。主观评测显示,其生成的歌曲在旋律流畅度、情感表达和风格一致性上达到专业制作人水准,尤其在人声与伴奏的相位对齐、转调处理等细节上表现突出。

与行业领先的闭源系统相比,SongGeneration在4分钟全曲创作任务中展现出相当竞争力。测试数据显示,其生成的中英文歌曲在专业听众盲测中的接受度达到85%,接近传统音乐制作流程的成品质量。研究团队在arXiv发表的论文(编号2506.07520)中详细阐述了模型的训练策略,包括多偏好对齐机制如何平衡创作新颖性与听众接受度。

生态构建:从技术验证到产业应用的桥梁

作为开源项目,SongGeneration不仅提供预训练模型,更配套完整的技术工具链。开发者可通过Hugging Face社区获取各版本模型文件,利用提供的推理脚本快速搭建创作平台。针对不同硬件条件,项目特别优化了显存占用方案:基础版可在消费级显卡运行,而专业级large模型则充分利用数据中心GPU的并行计算能力。

腾讯AILab表示,未来将持续更新模型权重,计划在v1.5系列中加入更多民族乐器采样和音乐风格模板。随着多语言支持的完善,该模型有望成为跨文化音乐创作的基础设施,为独立音乐人、游戏开发者和内容平台提供低成本的创作工具。目前,项目代码与模型权重已同步至GitCode仓库(https://gitcode.com/tencent_hunyuan/SongGeneration),欢迎学术界和产业界共同参与模型迭代与应用探索。

行业启示:AI创作从工具化向工业化演进

SongGeneration的开源标志着音乐AI领域进入新阶段。不同于早期的旋律片段生成工具,其4分钟全曲创作能力、多语言支持和专业级音质输出,已具备工业化生产特征。这种技术突破不仅降低音乐创作门槛,更可能重塑音乐产业的生产关系——从传统的作曲、编曲、录音分工模式,转向AI辅助的一体化创作流程。

随着模型能力的持续提升,未来创作者或许只需输入情感关键词和风格要求,即可获得完整的多轨工程文件,大幅缩短从创意到成品的制作周期。对于音乐教育、广告配乐、游戏音频等领域,这种高效创作工具将释放巨大生产力。而多语言支持特性,则为文化内容的全球化传播提供新的技术路径,尤其有利于小语种音乐和民族音乐的创新表达。

【免费下载链接】SongGeneration腾讯开源SongGeneration项目,基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术,既能融合人声与伴奏达到和谐统一,也可分别处理实现更高音质。模型在百万歌曲数据集上训练,支持中英文生成,效果媲美业界顶尖系统,为音乐创作带来突破性AI解决方案项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/27 14:09:36

PrivateGPT新手入门:3步打造企业级私有AI知识库

PrivateGPT新手入门:3步打造企业级私有AI知识库 【免费下载链接】private-gpt 项目地址: https://gitcode.com/gh_mirrors/pr/private-gpt PrivateGPT是一款功能强大的私有化AI文档处理工具,能够帮助用户在完全离线环境下处理各种文档并获取智能…

作者头像 李华
网站建设 2026/2/27 5:38:47

UpSetR 终极指南:用矩阵可视化轻松掌握集合交集分析

UpSetR 终极指南:用矩阵可视化轻松掌握集合交集分析 【免费下载链接】UpSetR An R implementation of the UpSet set visualization technique published by Lex, Gehlenborg, et al.. 项目地址: https://gitcode.com/gh_mirrors/up/UpSetR 集合交集分析在数…

作者头像 李华
网站建设 2026/3/2 23:20:35

Armbian网络连接全攻略:从零开始掌握单板计算机联网技巧

Armbian网络连接全攻略:从零开始掌握单板计算机联网技巧 【免费下载链接】build Armbian Linux Build Framework 项目地址: https://gitcode.com/GitHub_Trending/bu/build 还在为你的Armbian设备无法联网而苦恼吗?无论是有线网络配置、无线WiFi连…

作者头像 李华
网站建设 2026/2/27 10:17:42

攻克时序分析透明度难题:Time-Series-Library可解释AI实战全解析

你是否曾经面对深度时序模型陷入困惑——为什么这个预测值突然飙升?哪些特征真正影响了股价波动?工业设备故障的根源信号在哪里?传统深度学习模型缺乏透明度,而Time-Series-Library(TSLib)的可解释AI技术让…

作者头像 李华
网站建设 2026/3/2 9:48:45

如何快速构建精准的电商AI定价策略系统

如何快速构建精准的电商AI定价策略系统 【免费下载链接】ludwig Low-code framework for building custom LLMs, neural networks, and other AI models 项目地址: https://gitcode.com/gh_mirrors/lu/ludwig 在竞争白热化的电商市场,智能定价已成为决定企业…

作者头像 李华
网站建设 2026/3/3 2:46:44

RuoYi-Vue快速开发框架:5大核心功能助你10分钟构建企业级应用

RuoYi-Vue快速开发框架:5大核心功能助你10分钟构建企业级应用 【免费下载链接】RuoYi-Vue-fast :tada: (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue & Element 的前后端分离权限管理系统 项目地址: https://gi…

作者头像 李华