
多模态模子在学术基准测试中赢得高分凯发·k8国际娱乐网,到了真实寰宇应用时却发扬不足预期,该怎么分辨?
新的空洞性视觉言语调理基准JourneyBench,哄骗基于 diffusion 模子请示生成的图像,并收受一种新颖的东说念主机闭环框架,通过五项具有挑战性的任务来评估多模态模子的推理才略:
多模态链式数学推理 ( Multimodal Chain-of-Thought )
多图像视觉问答 ( Multi-image VQA )
细粒度跨模态检索 ( Fine-grained Cross-modal Retrieval )
包含幻觉触发的敞开式视觉问答 ( VQA with Hallucination Triggers )
相称见图像的描写 ( Unusual Image Captioning )

JourneyBench 由哥伦比亚大学、弗吉尼亚理工和加州大学洛杉矶分校的团队提倡,是 Google Deepmind 的多模态 ( Gemini ) 团队提倡的 HaloQuest, ECCV 2024 的孳生责任。
HaloQuest 的第一作家聚积哥伦比亚大学、弗吉尼亚理工和加州大学洛杉矶分校构建了一个空洞性的视觉言语调理的试验以及评价基准 JourneyBench。

团队以为尽管现存的视觉言语调理的评价基准激动了显赫进展,但它们频繁包含有限的视觉各样性,况兼场景的复杂性低于宽泛糊口中遭逢的情况:
很多基准因互联网图片的版权抑制,将其图像散布抑制在像 COCO 或 Flickr 这么的平台和资源中。
这些基准通常抑制于日经常见的物体和场景,而非荒野致使微抽象的场景。
这些基准的过分同质化的数据在模子的预试验中也多有出现,模子很容易通过学习到的偏见在测试中发扬优异,但不一定真是调理图像执行。
这种偏见、偏差可能会在学术基准测试中进步分数,但在过渡到真实复杂的寰宇应用时却会带来显赫挑战。
此外,用于评估多模态链式数学推理的基准经常包含冗余的视觉执行(即视觉信息并不需要,模子就不错回答问题的执行)。现时的多模态链式数学推理基准也未能充分处置其他的要津问题,举例幻觉现象和预计一致性。在检索任务的基准测试中,模子的性能接近东说念主类水平,难以离别不同模子。这种性能饱和部分是由于现存检索基准衰退细粒度的细节,对面前精深的模子衰退实足的挑战性。
生成图像不错迎合荒野的主张,举例"马卡龙上的大象",这在传统数据集聚极为荒野,但关于评估模子对视觉主张的真实调理至关遑急。举例,COCO 中包含的对象关系在知识数据库 ConceptNet 中占 68%,而咱们相聚的生成图像中仅占 6%。
此外,跟着生成图像变得越来越传神,并在网上多量炫耀,将其纳入基准以评估模子调理妥协释各样化视觉场景的才略将变得日益遑急。
通过哄骗基于请示生成的图像,不错克服现存基准的局限性,提供更好的可控性和视觉执行各样性。这种程序省略严格测试模子的幻觉倾向、一致性,以及在各式弗成预计环境中有用初始的才略。

数据先容
JourneyBench 用五项多模态理除名务测试模子在荒野场景中的推理当用才略:
相称见图像的描写 ( Unusual Image Captioning )
图像描写是 VLU 基准测试中的程序任务,JourneyBench 旨在测试模子调理和描写诬捏图像的才略。为了哄骗基于请示生成的图像进一步激动 VLU 评估的畛域,并测试现存模子在之前评估责任中被忽略的才略,JourneyBench 高出关切诬捏图像。被测试模子需要生成一句话的图像描写,杰出使其成为诬捏图像的元素。
细粒度跨模态检索 ( Fine-grained Cross-modal Retrieval )
跨模态检索是很多基准中包含的一项基础性多模态调理的任务。给定一张图像,其想象是检索匹配的文本,反之也是。然而现在有的扩模态检索衰退样本为中心的打扰选项,致使模子只需关切图像之间的合座不同而非 object-level 的细粒度的不同。
多模态链式数学推理 ( Multimodal Chain-of-Thought )
在多模态链式数学推理任务中,输入由一张图像和一个问题构成,两个模态的信息毫不重合况兼强制互补,条目模子整合来自两种模态的信息来进行链式的数学推理。JourneyBench 不只单检测最终谜底的准确性,也会评审答题念念路的准确性。
多图像视觉问答 ( Multi-image VQA )
该任务条目模子在视觉问答中对多张图像进行推理。然而,由于真实图像资源有限,现存数据集主要测试模子的基本才略,举例热枕匹配、图文匹配和物体计数。比拟之下,JourneyBench 评估三个特定的才略且蔓延到更有挑战性的推理类别,比如:第一次提倡多图片的多模态算术推理、将外部知识应用于视觉推理以及识别多模态因果关系。这是面前最大的多图片视觉问答数据资源。
包含幻觉触发的敞开式视觉问答 ( VQA with Hallucination Triggers )
基于之前 HaloQuest 的责任,JourneyBench 也包含了容易从三种模态 ( 笔墨,图片和外部知识 ) 来触发模子进行幻觉的问题。这些问题王人围绕着基于 diffusion 模子请示生成的各式相称见图像。该任务包含三个类别的问题,对应着三种触发模态,旨在触发模子的幻觉:带有差错前提的问题 ( 幻觉触发存在于言语模态 ) 、接头挑战性视觉细节的问题 ( 幻觉触发存在于视觉模态 ) 和临了衰退实足高下文以进行准确解释的问题 ( 幻觉触发存在于外部知识 ) 。
数据样本如下图所示:

相称见图像的描写 ( Unusual Image Captioning )
图像描写是多模态调理基准测试中的程序任务,JourneyBench 测试模子对相称见图像的调理和描写才略。
为此,咱们条目模子生成一句话的图像描写,杰出点出使该图像显得相称见致使诬捏的元素。相称见致使诬捏的图像与现存基准中的真实图像有很大不同,JourneyBench 将其界说为描写不寻常视觉组合或现实中弗成能存在的诬捏场景的生成图像。若是咱们分析视觉元素和关系在 ConceptNet 中的存在比例,COCO 数据集聚的对象和关系在 ConceptNet 中有 68% 的匹配率,而 JourneyBench 的生成图像中这一比例仅为 6%。
细粒度跨模态检索(Fine-grainedCross-modalRetrieval)
在 MS-COCO 和 Flickr30K 等流行的跨模态检索基准上。这些基准主要触及真实图像,且重心是合座离别图像和文本的配对。然而,为了使模子省略准确检索磋议执行,省略在细粒度层面离别图像 - 文本配对至关遑急。为了挑战模子在访佛图像中进行细粒度离别的才略,JourneyBench 用造反性东说念主机闭环框架,为每个查询样本创建特定的打扰项,即需要细粒度辩别才气克服的难负样本。
JourneyBench 通过多轮注目和一致性查验进行质料保证,以防备出 Falsepositive 报或 Falsenegative。面前领域中常用的数据集频繁濒临诸如不一致、FP/FN、磨蹭性等问题,如下图所示。这主要源于从原始描写数据集聚抽样的历程。尽管也曾有一些费力试图改良这些准确性问题,但这些尝试却不测中引入了原始数据集聚不存在的误报。JourneyBench 的标注历程以及生成图片自己的各样性使得上述问题少量存在于样本中。更高质料的数据使得 JourneyBench 对模子性能的测试更准确。

多模态链式数学推理(Multimodal Chain-of-Thought)
现存的多模态链式数学推理数据资源(如 MathVista 和 ScienceQA)频繁包含冗余的视觉信息,使得模子仅通过言语输入就能回答问题。与 MathVista 和 ScienceQA 等多模态推理数据不同,在 JourneyBench 的多模态数学推理中,视觉信息和文本信息是严格证明莫得任何重复信息的,而且是互补的,以确保模子在链式数学推理历程中必须从两种模态中获取信息才气够正确解题。

多图像视觉问答(Multi-imageVQA)
最近,有少数多图像视觉问答基准被提倡,条目模子在 VQA 视觉问答中对多张图像进行推理。然而,由于真实图像资源的有限性,现存数据集主要测试基本才略,举例热枕匹配、图像 - 文本匹配和物体计数。比拟之下,JourneyBench 的多图像 VQA 任务拓展了三个具体且更具有挑战性的推理类别:多图片算术推理、多图片的将外部知识应用于视觉的推理,以及多图片的因果关系的识别。
包含幻觉触发的敞开式视觉问答(VQAwithHallucinationTriggers)
基于 Haloquest,JourneyBench 也包含了包含幻觉触发的敞开式视觉问答。这个任务是第一次在多模态调理和推理任务重系统的分析了幻觉的触发时势,高出是很横跨笔墨、视觉和外部知识三个模态,找到了对应的三种幻觉触发模子。这个任务也哄骗了东说念主机闭路程序相聚了问题以及相称见致使虚假场景的图片。为了让这个任务更有通用性,它迎合 GoogleDeepmind 建树了一款敞开性的 VQA 视觉问答的评价机制,况兼解说了其和东说念主体评价的雷同性。这个任务第一次提倡了用 diffusion 模子生成的图片来匡助模子进行挑战性的评价致使试验的范式,况兼通过实考解说了这个范式的可行性。其责任进一步解说了,HaloQuest 的试验数据相助着 instructiontuning 也能有用的改善现存大模子的幻觉活动。
实验与分析
研究及第了共 21 个多模态模子用以不同任务的实验分析,其中包括:
跨模态检索模子:ALBEF、CLIP
开源通用模子:MiniGPT4、mPLUG
开源多图像模子:VILA、Idefics2、Mantis
闭源模子:GPT-4V、GPT-4o
研究发现:
1. 模子在离别细粒度视觉细节方面存在艰难。在 JourneyBench 中的检索分数低于 MS-COCO 和 Flickr30k,标明模子在从咱们数据集聚检索文本和图像时濒临更大的挑战。

2. 模子对相称见以及诬捏的视觉场景并不相宜。大多数模子在 JourneyBench 上的发扬远逊于在其他图像描写数据集上的发扬,其中大部分模子的 CIDEr 得分低于 30。

3. 跨模态算术推理中具有挑战性。除 GPT 和 LLaVA 外,大多数其他模子得分低于 10%。值得防卫的是,GPT-4V 和 GPT-4o 在包含稠密物体的视觉环境中,在一致性、幻觉和跨模态方面发扬欠安。

4. 多张图像的跨模态问答极具挑战性。总体来看,各式模子在 JourneyBench 中跨多张图像问答时遭逢了极大的艰难,高出实在多图像的夸模态数学推理,外部知识的推理问答和因果关系的判别。

现存的 VLMs 视觉和言语的多模态模子在幻觉问题上发扬欠安,炫耀出较高的幻觉率。这一服从标明模子才略存在显赫不足,并杰出了需要有用的幻觉缓解程序。此外,模子限制的加多并不一定代表能进步其对幻觉的屈膝才略。

论断
JourneyBench 是一种全新的多模态调理和推理的基准,用于测试模子在各式任务中对不寻常或诬捏图像的调理才略,包括多模态链式数学推理、多图像 VQA 视觉问答、相称见和虚假图像的描写、侧重幻觉的视觉问答以及细粒度的跨模态检索。JourneyBench 的任务使之前扫数测试过的高评分模子在评估中得分抓续较低,凸显出其不寻常或诬捏图像的主题、战略性想象的打扰项、激发幻觉的问题以及需要跨模态共指的问题所带来的挑战。这使得 JourneyBench 成为评估先进多模态视觉和言语模子 MM-LLMs 才略的梦想用具,激动这些模子在调理妥协释才略上的极限。
https://journeybench.github.io/
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿执行
附上论文 / 时势主页承接,以及磋议方式哦
咱们会(尽量)实时回话你

一键关切 � � 点亮星标
科技前沿进展逐日见
一键三连「点赞」「转发」「预防心」
宽饶在评述区留住你的主义!凯发·k8国际娱乐网