news 2026/1/29 14:59:50

【VCD】Mitigating Object Hallucinations in Large Vision-Language Models through Visual...译读笔记

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【VCD】Mitigating Object Hallucinations in Large Vision-Language Models through Visual...译读笔记

Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding

大型视觉语言模型(LVLMs)取得了长足的进步,将视觉识别和语言理解交织在一起,生成的内容不仅连贯而且与语境相契合。尽管取得了成功,LVLMs仍然受困于物体幻觉问题,即模型生成看似合理实则不正确的输出,其中包含图像中不存在的物体。为了缓解这一问题,本文引入了视觉对比解码(VCD),这是一种简单且训练无关的方法,通过对比源自原始视觉输入和扭曲视觉输入的输出分布来工作。所提出的VCD有效减少了对统计偏差和单模态先验的过度依赖,这是导致物体幻觉的两个主要根源。这种调整确保了生成的内容紧密基于视觉输入,从而产生上下文准确的输出。本文的实验表明,VCD 无需额外训练或使用外部工具,在不同的 LVLM 系列中显著缓解了物体幻觉问题。除了缓解物体幻觉外,VCD 在通用 LVLM 基准测试中也表现出色,凸显了其广泛的适用性。代码开源于https://github.com/damo-nlp-sg/vcd。

1. 引言

大型视觉语言模型(LVLMs)已成为计算机视觉和自然语言处理交叉领域不可或缺的一部分,得益于其能够从视觉输入生成语境相关的文本描述的能力,这使得一系列应用得以实现。这些模型的特点在于其能够有效捕捉并转化复杂的视觉模式,形成连贯的语言表征[5_Qwen-VL, 12_InstructBLIP, 18_MultiModal-GPT, 33_Otter, 45_Visual_Instruction_Tuning, 49_Video-ChatGPT, 70_mPLUG-Owl, 73, 78]。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/27 6:16:24

Linux平台Arduino安装方法:IDE配置与驱动设置详解

Linux平台Arduino开发环境搭建全攻略:从零配置到生产级稳定你是不是也经历过这样的时刻?满怀期待地把Arduino板插上Linux电脑,打开IDE准备上传第一个“Blink”程序,结果却弹出一连串错误:“Permission denied”、“Can…

作者头像 李华
网站建设 2026/1/27 15:13:26

亚马逊AI全栈重组,对开发者与云市场意味着什么?

亚马逊于12月18日宣布的AI团队重组,是一次颇具深意的“外科手术式”整合。新团队并非简单合并,而是将AGI模型研发(Nova模型、Alexa大脑)、芯片设计(如Trainium、Inferentia)以及前瞻性的量子计算研究三大板…

作者头像 李华
网站建设 2026/1/28 14:05:14

EC2创建逻辑卷lvs

硬盘(PV) → 卷组(VG) → 逻辑卷(LV) → 文件系统 → 挂载 1、创建三块硬盘,并创建物理卷pv [rootip-172-31-26-146 ~]# lsblk NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINTS nvme0n1 259:0 0 40G 0 disk ├─nvme0n1p1 259:1 0 40G 0 par…

作者头像 李华
网站建设 2026/1/19 18:30:03

一次消谐器与二次消谐器如何区分?

一次消谐器与二次消谐器的定义一次消谐器用于直接抑制电力系统中的谐波,通常安装在电网的输入端或负载侧,针对基波频率(如50Hz/60Hz)的谐波进行滤波。 二次消谐器则用于抑制由非线性负载(如变频器、UPS等)产…

作者头像 李华