LeVo引擎驱动:腾讯SongGeneration模型开源 多语言音乐创作迈入4分钟全曲时代
【免费下载链接】SongGeneration腾讯开源SongGeneration项目,基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术,既能融合人声与伴奏达到和谐统一,也可分别处理实现更高音质。模型在百万歌曲数据集上训练,支持中英文生成,效果媲美业界顶尖系统,为音乐创作带来突破性AI解决方案项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration
近日,腾讯AILab正式发布SongGeneration开源项目,作为LeVo(High-Quality Song Generation with Multi-Preference Alignment)研究成果的官方权重仓库,该项目首次向公众开放了具备多偏好对齐能力的AI歌曲生成模型。通过提供完整的模型文件、推理脚本及基于百万歌曲数据集训练的 checkpoint,腾讯正推动音乐生成领域从片段创作向全曲工业化生产迈进。
模型矩阵全景:从基础版到多语言旗舰版的能力跃迁
SongGeneration目前已形成覆盖不同创作需求的完整模型矩阵,最新发布的6款模型在创作时长、语言支持和性能表现上实现阶梯式突破。基础版(SongGeneration-base)支持2分30秒的中文歌曲生成,在A100显卡上仅需10G显存即可运行,RFT(音乐质量评估指标)达1.26分;其升级版(base-new)首次实现中英双语创作,而base-full版本将创作时长扩展至4分30秒,满足流行歌曲完整结构需求。
旗舰级large模型凭借22G显存占用和1.51的RFT评分,成为当前开源领域性能最强的音乐生成模型。值得关注的是,即将发布的v1.5系列突破性支持英、中、西、日等多语言创作,其中small版本主打轻量化部署,base和large版本则保持4分30秒的全曲创作能力,标志着AI音乐创作正式进入多语言全球化应用阶段。
技术架构解密:双轨token系统实现人声乐器协同创作
SongGeneration的核心突破在于创新性的LeLM(音乐语言模型)与音乐编解码器架构。不同于传统单轨生成方案,LeLM首次实现混合token与双轨token的并行建模:混合token负责编码人声与伴奏的融合音频特征,确保演唱与乐器的和谐统一;双轨token则独立编码人声旋律线与伴奏声部,为人声清晰度和乐器层次感提供精细化控制。
如上图所示,该Logo融合音乐波形与神经网络节点元素,直观呈现AI与音乐创作的跨界融合。这一视觉符号既代表腾讯在音乐AI领域的技术主张,也暗示SongGeneration模型连接离散数据与连续音频的核心能力。
这种双层token设计使模型能够同时处理"整体和谐"与"细节分离"的创作需求。当进行旋律创作时,混合token确保人声与钢琴、吉他等伴奏乐器的调性统一;而在后期制作阶段,双轨token支持单独调整人声混响或乐器音量,极大提升创作灵活性。配合自研音乐编解码器,系统可将这些结构化token重建为44.1kHz高保真音频,实现从符号化创作到听觉体验的完整闭环。
该架构图清晰展示了LeLM与编解码器的协同工作流程。左侧的双轨token生成模块与右侧的音频重建系统形成完整 pipeline,这种模块化设计既保证了创作自由度,又确保了输出音频的专业级品质。
性能突破:开源模型首次媲美工业级创作系统
通过在百万歌曲数据集(Million Song Dataset)上的深度训练,SongGeneration在多项核心指标上实现对现有开源方案的全面超越。主观评测显示,其生成的歌曲在旋律流畅度、情感表达和风格一致性上达到专业制作人水准,尤其在人声与伴奏的相位对齐、转调处理等细节上表现突出。
与行业领先的闭源系统相比,SongGeneration在4分钟全曲创作任务中展现出相当竞争力。测试数据显示,其生成的中英文歌曲在专业听众盲测中的接受度达到85%,接近传统音乐制作流程的成品质量。研究团队在arXiv发表的论文(编号2506.07520)中详细阐述了模型的训练策略,包括多偏好对齐机制如何平衡创作新颖性与听众接受度。
生态构建:从技术验证到产业应用的桥梁
作为开源项目,SongGeneration不仅提供预训练模型,更配套完整的技术工具链。开发者可通过Hugging Face社区获取各版本模型文件,利用提供的推理脚本快速搭建创作平台。针对不同硬件条件,项目特别优化了显存占用方案:基础版可在消费级显卡运行,而专业级large模型则充分利用数据中心GPU的并行计算能力。
腾讯AILab表示,未来将持续更新模型权重,计划在v1.5系列中加入更多民族乐器采样和音乐风格模板。随着多语言支持的完善,该模型有望成为跨文化音乐创作的基础设施,为独立音乐人、游戏开发者和内容平台提供低成本的创作工具。目前,项目代码与模型权重已同步至GitCode仓库(https://gitcode.com/tencent_hunyuan/SongGeneration),欢迎学术界和产业界共同参与模型迭代与应用探索。
行业启示:AI创作从工具化向工业化演进
SongGeneration的开源标志着音乐AI领域进入新阶段。不同于早期的旋律片段生成工具,其4分钟全曲创作能力、多语言支持和专业级音质输出,已具备工业化生产特征。这种技术突破不仅降低音乐创作门槛,更可能重塑音乐产业的生产关系——从传统的作曲、编曲、录音分工模式,转向AI辅助的一体化创作流程。
随着模型能力的持续提升,未来创作者或许只需输入情感关键词和风格要求,即可获得完整的多轨工程文件,大幅缩短从创意到成品的制作周期。对于音乐教育、广告配乐、游戏音频等领域,这种高效创作工具将释放巨大生产力。而多语言支持特性,则为文化内容的全球化传播提供新的技术路径,尤其有利于小语种音乐和民族音乐的创新表达。
【免费下载链接】SongGeneration腾讯开源SongGeneration项目,基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术,既能融合人声与伴奏达到和谐统一,也可分别处理实现更高音质。模型在百万歌曲数据集上训练,支持中英文生成,效果媲美业界顶尖系统,为音乐创作带来突破性AI解决方案项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考