📄 JVET-AL0205-r1 提案分析
标题:EE2-2.1: EIP filters with diagonal shapes
作者:Krit Panusopone, Michelle He, Seungwook Hong 等(Nokia)
会议:JVET 第38次会议(线上,2025年3月–4月)
✅ 一、主要内容概述
本提案是EE2-2.1 测试贡献,旨在评估一种新型的增强型图像预测(Enhanced Image Prediction, EIP)滤波器结构——引入对角形状的支持区域。
在原有 ECM-16.1 编码模型中,EIP 滤波器仅使用当前预测样本左上方的邻近像素作为参考。
本提案提出扩展其支持区域至右上和左下方向,形成“对角形”滤波器结构,以提升复杂纹理和边缘区域的预测精度。
该工作属于神经网络后处理或AI增强类工具探索阶段(Experimental Evaluation),目标是为未来 VVC 扩展或下一代视频编码标准积累数据支持。
✅ 二、改进方向(Technical Motivation)
| 改进点 | 描述 |
|---|---|
| 🔺1. 扩展滤波器支持区域的方向性 | 原始 EIP 滤波器只利用“上+左”方向的已重建样本 → 存在方向偏置 新方法引入右上(above-right)和左下(below-left)方向样本,增强对斜线、交叉纹理等结构的建模能力 |
| 🧱2. 更灵活的滤波器形状设计 | 提出三种新的对角形支持区域(diagonal-shaped support areas) 突破传统轴对齐限制,逼近真实图像中的几何结构 |
| 🎯3. 提升预测准确性,尤其在高频细节区 | 如文字边缘、建筑线条、棋盘格等场景中,原有滤波器易出现模糊或振铃 新结构可更好捕捉多方向相关性 |
📌 总体目标:
通过更合理的空间采样模式,提高 EIP 模块的预测质量,从而降低残差能量,提升整体编码效率。
✅ 三、算法核心:EIP 滤波器结构对比
1. 背景:ECM-16.1 中原有的三种 EIP 滤波器形状(Fig. 1)
所有原始滤波器都具有以下特点:
- 仅包含位于当前预测点Q的左侧和上方的参考样本
- 支持区域呈矩形或L形
示例形状(简化表示): Shape 1: Shape 2: Shape 3: X X X X X X X X X X X X X X X X X X X X X X Q X X Q X X X X Q X X Q❗ 局限性:无法有效利用图像中常见的对角走向信息(如 / 或 \ 边缘)
2. 提案提出的三种对角形 EIP 滤波器(Fig. 2)
新增样本位置覆盖above-right和below-left区域
示例形状(根据 Fig. 2 解读):
Proposed Shape A: X X X X X X X X X X X X X Q → 包含右上角多个样本,适合 /Proposed Shape B: X X X X X X X X X X X X X X Q → 长条形左下延伸,适合 \Proposed Shape C: X X X X X X X X X X X X X X X X X Q → 十字交叉扩展,兼顾多方向相关性✅ 关键创新:
- 打破“仅左/上”的局限
- 引入非对称、非矩形的支持区域
- 更贴近自然图像中的局部几何结构
✅ 四、具体实现方式(Algorithmic Details)
虽然未给出完整公式,但可以推断其实现流程如下:
步骤 1:确定当前预测样本 Q 的位置
- 在帧内或帧间预测之后,进入 EIP 后处理阶段
步骤 2:选择合适的滤波器形状
- 基于局部梯度、边缘方向、纹理复杂度等决策机制
- 可能采用率失真优化(RD decision)选择最优 shape
步骤 3:构建输入张量(Input of EIP)
- 将选定形状内的已重建邻近样本值收集为特征向量
- 输入到轻量级神经网络或线性滤波器中进行预测修正
步骤 4:生成输出(Output of EIP)
- 输出是对原始预测值的残差补偿或直接替代
- 最终用于重建并参与后续块的预测
✅ 五、实验设置与测试条件
| 项目 | 内容 |
|---|---|
| 基础平台 | ECM-16.1(Experimental Common Model) |
| 测试类型 | 全帧内配置(All Intra Main 10) |
| 序列类别 | Class A1, A2, B, C, D, E, F, TGM(Tiled Gaming & Mobile) |
| 性能指标 | BD-rate ΔY/U/V (%),编码时间(EncT),解码峰值内存(DecVmPeak) |
| 公共测试条件 | 遵循 JVET 官方 CTG(Common Test Conditions)[2] |
✅ 六、性能结果分析(Table 1)
表格标题:“Simulation results over ECM-16.1”
| 类别 | Y (luma) | U (chroma) | V (chroma) | EncT (%) | DecVmPeak (%) |
|---|---|---|---|---|---|
| Overall | -0.02% | 0.01% | 0.02% | 100.2% | 100.1% |
| Class A1/A2/B | -0.04% ~ -0.01% | … | … | 100.0%~100.1% | 100.0%~100.2% |
| Class C | +0.01% | +0.06% | +0.06% | 100.6% | 100.0% |
| Class E | -0.04% ~ -0.08% | … | … | 100.1%~100.2% | 100.0% |
| Class D/F/TGM | 0.00% ~ +0.14% | … | … | 99.6%~100.8% | 99.6%~100.0% |
🔍 结果解读:
| 观察点 | 分析 |
|---|---|
| ✅总体亮度增益 | Y 分量平均节省0.02%码率(负值表示压缩效率提升) 虽小但正向,说明新滤波器有一定有效性 |
| ⚠️色度略有上升 | U/V 上升 0.01%~0.02%,可能因模型未充分优化色度通道 |
| 📈特定序列显著改善 | 如 Class E(高动态游戏类)达到 -0.08% Y 增益 表明对复杂运动/纹理场景更有效 |
| 💾内存占用可控 | DecVmPeak 多数在 100% 左右,无明显增加 |
| ⏱️编码时间基本持平 | EncT ≈ 100.2%,计算开销合理 |
📌 特别注意:
- Class D/F/TGM 中部分测试显示+0.14% Y 增加,说明某些内容反而变差
- 表明需进一步优化形状选择策略或加入自适应开关机制
✅ 七、技术意义与未来发展
| 维度 | 意义 |
|---|---|
| 🔄推动 AI-based in-loop filtering 发展 | 是 EIP 类神经后滤波器的重要演进尝试 |
| 🧭从各向同性到各向异性支持区域 | 开启了“方向感知型”滤波器设计的新思路 |
| 🧠迈向语义级局部建模 | 未来可结合边缘检测、分割掩码来自适应选择滤波器形状 |
| 🎮特别适用于屏幕内容编码(SCC) | 文字、UI、图标常含对角线结构,收益更大 |
✅ 八、总结:核心要点一览
| 项目 | 内容 |
|---|---|
| 提案编号 | JVET-AL0205-r1 |
| 主题 | 引入对角形支持区域的 EIP 滤波器 |
| 主要创新 | 扩展参考样本至 above-right 和 below-left 区域 |
| 滤波器数量 | 提出 3 种新型对角形状(Fig. 2) |
| 实验平台 | ECM-16.1,All Intra 配置 |
| 性能表现 | Y: -0.02% avg gain;U/V 微幅上升;内存/时间可控 |
| 应用前景 | 适合高纹理、斜边丰富的视频(如游戏、动画、PPT) |
| 下一步建议 | 引入自适应形状选择机制、联合训练端到端模型 |
📘 参考资料
- [1] “EIP filters with diagonal shapes” – Prior work cited in proposal
- [2] JVET Common Test Conditions for AI configuration
- VVC/H.266 Standard (ITU-T H.266 | ISO/IEC 23090-3)
- ECM Software Package (Experimental Common Model)