当人工智能绘画作品在拍卖会上以数十万美元成交,当AI生成的人像以假乱真到让人无法分辨,一个严肃的问题随之而来:我们究竟该如何科学地评价这些“无中生有”的图像?
你或许听说过“FID越低越好”或“IS越高越好”这样的说法,但对于它们究竟如何运作、为何能成为行业标准,可能仍感模糊。
这两个指标,连同其他评价工具,正构建着生成式AI领域的“价值标尺”。
01 视觉的裁判:生成模型为何需要评价?
随着生成式AI技术的爆发,从GAN到扩散模型,机器创造的图像在质量和多样性上突飞猛进。随之而来的核心挑战是:如何客观、量化地判断一个模型的好坏?
传统的评价方式,如人工评审,虽然直观但成本高昂、主观性强且难以规模化。这就催生了自动化评估指标的需求。
一个好的评价指标,需要同时衡量图像的真实性(看起来像真的)、多样性(能创造多种内容)以及对于条件生成模型而言的条件遵循度(生成的图像是否符合文本描述等要求)。没有一个单一指标能完美捕捉所有维度,因此实践中往往需要“多指标联审”。
02 开端分数(IS):质量与多样性的首次量化尝试
IS是最早被广泛采纳的评估生成图像质量的指标之一,由OpenAI的研究人员于2016年提出。其核心思想巧妙而直接:一个好的生成模型应该产出既清晰可辨(高质量)又丰富多样(覆盖多类别)的图像。
它的计算依赖于一个“裁判”——在ImageNet数据集上预训练的Inception-v3图像分类网络。
IS的计算分为两步。首先,对于每张生成的图像,输入Inception-v3网络,得到一个类别概率分布。一张“好”的图像应该让分类器信心十足,概率分布集中(即熵值低)。
其次,需要将所有生成图像的概率分布进行汇总,计算其边缘分布。一个“好”的模型生成的图像应覆盖许多类别,因此这个边缘分布应该尽可能均匀(即熵值高)。
IS分数正是通过计算每个图像的条件概率分布与其整体边缘概率分布之间的KL散度得出的。分数越高,意味着图像质量越高且多样性越好。
但IS有其显著局限。它完全依赖ImageNet分类体系,对于生成人脸、风景等不在其1000个类别内的图像时,评估可能不准确。更重要的是,它只评估生成图像本身,不与任何真实图像库进行比较,因此无法检测模型是否只是简单地记忆并复刻了训练数据。
03 弗雷歇起始距离(FID):与真实世界的距离
FID于2017年被提出,迅速取代IS成为当前最主流的生成模型评估指标。它解决了一个关键问题:将生成图像与真实图像进行直接比较。
FID的核心思路是,在深度学习模型所理解的“特征空间”里,度量两组图像的距离。
它同样使用Inception-v3网络,但不再是取其分类结果,而是抽取中间层的特征。假设“真实图像集”和“生成图像集”在特征空间的特征向量分别服从两个多维高斯分布。FID即是计算这两个分布之间的弗雷歇距离,该距离综合考虑了均值(特征的中心点)和协方差(特征的离散程度)的差异。
一个更低的FID分数,意味着生成图像的特征分布与真实图像的特征分布更接近,即生成效果更逼真。
然而,作为行业“金标准”的FID,其可靠性正受到最新研究的挑战。2024年CVPR会议的一篇重磅论文《Rethinking FID》系统地指出了其几大缺陷。
研究表明,Inception-v3网络的特征表达能力对于评估现代文生图模型生成的丰富内容已显不足。FID假设特征服从高斯分布,这可能不符合实际情况。此外,其分数对计算所用的图像样本数量非常敏感,样本量不同会导致结果波动,且无法稳定反映模型在迭代训练中的渐进式改进。
04 评价工具箱:其他关键指标一览
尽管FID和IS是主角,但一个全面的评估需要多视角的指标协同。以下是其他几类重要的评价工具:
R-precision与视觉语义相似度:专为评估文本生成图像模型设计。它不再只关心图像是否真实,而是衡量生成的图像与输入文本描述之间的语义对齐程度。通过计算图像特征和文本嵌入的相似度进行排序,判断正确的文本描述是否位列前茅。
条件评价指标(CIS与CFID):这是对IS和FID的重要改进,专门用于评估“按指定类别生成图像”的模型。传统的FID会将所有类别的图像混在一起计算,可能掩盖模型在某些特定类别上表现不佳的问题。条件指标(如CFID)则将评估分解为“类内多样性”和“类间区分度”两个部分,提供更精细的诊断。
学习感知图像块相似度:一种基于人类视觉感知的图像相似度指标。它使用深度卷积网络提取特征,并计算两幅图像特征间的距离。研究认为,LPIPS与人类判断的相关性比传统像素级比对更高,常被用于评估图像编辑、超分辨率等任务的生成效果。
结构相似性指数:一种更传统但依然有用的全参考图像质量评估指标。它从图像的亮度、对比度、结构三个方面进行量化比较,计算速度快,对感知到的结构信息变化敏感。
05 如何选择合适的评价指标?
面对众多指标,如何选择?以下决策框架供你参考:
根据生成任务的核心目标选择。若目标是追求极致的真实感与多样性,FID(需注意其样本量一致性)和KID是首选。若任务是文生图,必须引入R-precision或CLIP Score来评估图文对齐。若任务是按精确类别生成(如生成指定品种的狗),条件指标能提供更深入的洞察。
在实际应用中,单一指标的局限性决定了必须采用组合拳。例如,评估一个文生图模型,可以同时报告FID(整体真实度)、R-precision(语义对齐度)和LPIPS(生成多样性)。
指标的局限性也指明了未来的发展方向。针对FID的缺陷,前述CVPR 2024的研究提出了CMMD作为一种潜在的替代方案,它基于更强大的CLIP模型提取特征,并采用无需高斯假设的最大均值差异进行计算,被证明更稳健、样本效率更高。
面对一幅AI生成的星空,一位天文学家赞叹其绚丽,一位程序员则开始计算它的FID分数。当天文学家询问分数含义时,程序员说:“FID试图告诉我们,这片人造星海在数学的宇宙里,离真实的银河系还有多少光年。”
人类用眼睛判断美,机器用数据逼近真。