【论文阅读】UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions-育师

code：UniAVGen - Unified Audio and Video Generation

介绍

解决的问题：现在很多开源“音频-视频生成”要么是两段式：先出视频再配音（或反过来），要么是“端到端”但对人声（尤其是说话、情绪、音色）很弱。两段式最大毛病是：生成时模态是解耦的，视频在“听不见”的环境里生成，音频在“看不见”的环境里生成，于是常见问题是：

口型对不上（lip sync）
语气/情绪和表情/动作不一致
音色/身份信息不稳（这人看起来像 A，说出来像 B）

他们要做的是：一个统一模型，同时支持三类关键任务（图1）：

文本 + 人脸参考图 → 同时生成音频和视频
给定视频 → 配音（dubbing）
给定音频 → 音频驱动视频（talking / motion）

方法

总体框架：Dual-Branch Joint Synthesis（双分支联合合成）：一条视频分支、一条音频分支，两条都是 DiT 流，并且强调对称设计：结构一样（或尽量对应），这样两边的特征层级、token 语义更容易“对齐”，为跨模态交互打地基。

视频分支建模：

视频先按 16 fps 处理，用预训练 VAE 编到 latent：zv
参考人脸图 Iref和条件视频也编码成 zvref,zvcond
输入拼成：[z0vref,z0vcond,ztv]
文本视频描述 Tv 用 umT5 编码成 ev，通过 cross-attn 注入
训练用 Flow Matching，损失是预测向量场：

音频分支建模

音频 24kHz，转 Mel 频谱作为 latent za
可选参考音频 Xaref、条件音频 Xacond 也转成 zaref,zacond
输入拼成：[z0aref,z0acond,zta]
语音内容文本 Ta 经 ConvNeXt V2 blocks 提特征 ea，也通过 cross-attn 注入
同样 Flow Matching，损失是：

Asymmetric Cross-Modal Interaction（ATI）

到底“非对称”在哪？论文专门用图3对比三种交互方式：

SGI（全局互看）：每个 token 看对方所有 token。简单但训练难收敛，因为没有显式时间对齐。
STI（对称时间对齐）：按时间段一一对应互看，收敛快，但上下文太窄，信息不够。
ATI（本文）：时间对齐，但 A→V 与 V→A 用不同策略，各取所长。

A2V：Audio → Video 对齐器（为什么要“窗口”上下文？）

口型/表情不是只由“这一瞬间的音素”决定，还受前后音素影响。
做法是：把 video tokens reshape 成按帧的 Hv，音频也 reshape 成 Ha。

对第 i 帧视频，不只看 i 帧音频，而是拼一个窗口：

然后做 frame-wise cross-attn，让视频帧去 query 这个音频上下文：

直觉：视频每帧需要“听到附近一小段”，这样更容易学到口型-发音的对应。

3.2 V2A：Video → Audio 对齐器（为什么要“插值”？）

音频 token 时间分辨率通常更细：一个视频帧对应一段音频 token。若硬对齐会很粗。
他们令每个音频 token jjj 对应视频帧 i=⌊j/k⌋i=\lfloor j/k\rfloori=⌊j/k⌋，并用相邻两帧做线性插值：

再让音频 token 去 query 这个“平滑的视觉上下文”：

直觉：音频是连续流，视频帧是离散采样；插值能把“嘴巴从帧 i 到帧 i+1 的过渡”传给音频，帮助音色/情绪/身份线索更稳。

一个很关键但容易忽略的训练技巧：他们把交互输出的线性层 Wo 零初始化，避免一开始跨模态信息太强把各自生成能力“带崩”。

Face-Aware Modulation（FAM）

为什么能帮口型对齐？

作者认为 joint AV generation 里真正需要强耦合的是脸部区域。让跨模态交互去处理整张图会：

浪费容量
早期训练把背景也“搅乱”，引入伪相关

所以他们做了一个动态人脸mask预测头，在每个交互层输出软 mask：

并用人脸检测得到的 GT mask 监督；更聪明的是：监督权重 λm 逐渐衰减到 0，让模型从“先盯脸学对齐”过渡到“后期放开学更全局的交互”。

mask 怎么用？

A2V：只在 mask 位置更新视频特征：
V2A：在做插值上下文前，用 mask 加权视频特征，让音频主要从“脸相关”区域拿信息。

MA-CFG（Modality-Aware CFG）

是在推理阶段补哪一刀？

传统 CFG 是单模态：用“有条件输出”和“无条件输出”的差来加强条件控制。
但在 joint AV 里，如果只是分别对音频和视频做 CFG，并不会显式加强“音→视”“视→音”的依赖。

提出 MA-CFG：先做一次 forward 得到“无跨模态交互”的 unimodal baseline uθa,uθv，再用“有跨模态交互”的 uθa,v 去引导两个模态：

可以理解成：把 CFG 的“强化差分”从文本条件，挪一部分给跨模态相关性。

实验

训练流程（三阶段）

先单训音频分支（Emilia 英文子集，160k steps）
再端到端联合训练（内部真人 AV 数据集，30k steps）
最后做多任务训练（10k steps，五任务比例 4:1:1:2:2）

指标设计

音频质量：PQ、CU（AudioBox-Aesthetics），以及 WER（Whisper-large-v3）
视频质量：VBench 的 SC/DD/IQ
跨模态一致性：
- LS：SyncNet 置信度
- TC、EC：用 Gemini-2.5-Pro 打分（0~1），三次评估取平均

主结果（表1）：训练样本 1.3M vs Ovi 30.7M，UniAVGen 在 TC/EC 上更强，LS 也接近最强，视频动态（DD）和画质（IQ）也领先或持平。

消融：ATI 与 FAM 是否真有用？

交互机制消融（表2）：从 SGI → STI → ATI，ATI(双向)最好，TC/EC 提升最明显。
FAM 消融（表3）：带监督的 FAM 明显好于不带；衰减 λm\lambda_mλm 的设置最好（TC/EC 最优）。
MA-CFG（图6）：加了之后情绪与动作更“跟着声音走”。

【论文阅读】UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions

介绍

方法

实验

AppleRa1n终极教程：iOS设备激活锁完全绕过方案

零基础入门Whisper.cpp：5分钟搭建离线语音识别系统

YoloMouse游戏光标自定义工具：终极使用配置指南

34、Unix系统下SMB/CIFS共享访问工具全解析

40、Samba使用的额外资源与命令详解

27、Google 演示文稿使用指南：文本操作与格式设置全攻略