type
status
date
slug
summary
tags
category
icon
password
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization
个人评分:7.5
重点摘要:上来点明在MLLM中,CoT并不总是work,甚至是对准确率有害。这很可能是SFT过程中和推理过程的gap导致的(so called distribution shift,一个是teacher forcing,一个是Auto-regression)。然后论文叙述本身是清晰的,实验量也比较足。但是对于quality本身的讨论还是不够,novelty不算特别好。


一、引言
这篇论文主要介绍了一种通过混合偏好优化(Mixed Preference Optimization,MPO)来增强多模态大型语言模型(Multimodal Large Language Models,MLLMs)推理能力的方法。
现有的开源 MLLMs 在训练过程中存在分布偏移问题,限制了其多模态推理能力,尤其是在思维链(Chain-of-Thought,CoT)表现方面。为解决此问题,作者从数据和模型两方面进行了改进。这一段对于CoT为什么会恶化模型的表现的论述还是值得读一下的:
However, open-source MLLMs still exhibit limited reasoning capabilities. As shown in Figure 1, InternVL2-8B [20] achieves a score of 58.3 on MathVista [61], a benchmark for multimodal reasoning, when using direct answers but drops to 56.8 with Chain-of-Thought (CoT) reasoning, indicating that CoT reasoning actually reduces its performance. This decline is commonly observed across open-source MLLMs [20, 44, 96, 105]. We attribute this phenomenon primarily to a distribution shift introduced by the SFT loss. Specifically, SFT relies on teacher forcing, where the model is trained to predict the next token based on previous ground-truth tokens. However, during inference, models must predict each token based on their own prior outputs, leading to a distribution shift between training and inference. Since the direct-answer approach requires only brief responses, while CoT reasoning involves generating a long rationale, the distribution shift problem becomes more severe during CoT. This results in models performing worse with CoT reasoning compared to direct-answer responses.
为了解决这个CoT在MLLMs中带来的恶化问题,我们仿照NLP中的偏好优化方法(preference optimization(PO))。通过PO来提升MLLMs的推理能力存在很多挑战(GAP描述如下)
一、缺少高质量的标注数据,标注太贵:现存的多模态数据主要聚焦于对于自然场景的数据,和自然场景数据的感知类问答,他们致力于解决幻觉类问题。而对于科学类图片和推理类的数据是很缺乏的。
二、缺少开源的针对多模态推理能力提升的偏好优化方法。尽管之前的许多工作探索了利用多源数据来微调MLLMs,结果主要是优化了幻觉层面的推理,而模型在通用的推理上没有什么进步。
Contributions on those gap:
- 数据侧,贡献了一个自动构建数据集的流水线 MMPR,高质量、大规模的推理偏好数据集
- 模型测,探索了许多MLLM PO的方法,然后引入了一个简单而有效的方法:混合偏好优化(Mixed preference optimization(MPO))。可以显著提升CoT的推理能力,且不需要训练一个reward model
具体来说,对于缺少清晰的ground truth的样本,我们提出了一个基于连续性的pipeline,称之为 Dropout Next Token Prediction(DropoutNTP) ,对于拥有清晰的ground truth的样本,我们提出了一个基于正确性的流水线 correctnes-based pipeline。
对DropoutNTP来说,由
InternVL2-8B 生成的回答视作正样本(positive samples),对于一个选好的给定的回答,我们将其分为两半,前一半喂给InternVL2-8B让他完成这个回答(在没有接触到图像输入的情况下)。这个给前半,生成的后半被视为拒绝样本。实验表明,这种简单的方法,在减少幻觉的层面,展现出了与Divide-and-Conquer(proposed in RLAIF-V)方法相当的能力对于correctness-based来说,对每个问题的多个回答会由InternVL2-8B来抽样,和正确答案匹配的,作为chosen answer,剩下的作为reject responses。
接下来是吹牛逼环节,说这个方法在以下层面都做得很出色
- 高效地自动化构建数据的流水线
- 高效地跨领域
- 涨点明显:We conduct extensive experiments to explore practical approaches for improving multimodal reasoning via PO. Results show that PO significantly improves reasoning abilities over SFT. Notably, the proposed InternVL2-8B-MPO achieves an accuracy of 67.0 on MathVista [61], outperforming InternVL2-8B by 8.7 points and achieving performance comparable to the 10×larger InternVL2-76B
二、相关工作
Multimodal Large Language Models。
分为几个流派:
- Vision Foundation Models (employ connector to align text and imgs in latent space),
- Pre-trained LLMs with additional fusion layers for vision features
- Vision Encoder free architectures
流派一:Vision Foundation Models (employ connector to align text and imgs in latent space),
引用编号19
- 标题:Internvl: Scaling up vision foundation models and aligning for generic visual - linguistic tasks
- 作者:Zhe Chen, Jiannan Wu, Wenhai Wang, Weijie Su, Guo Chen, Sen Xing, Zhong Muyan, Qinglong Zhang, Xizhou Zhu, Lewei Lu等
- 发表平台:arXiv preprint arXiv:2312.14238, 2023
- 主要内容:聚焦于视觉基础模型的扩展以及使其适用于通用视觉 - 语言任务的研究。在多模态大语言模型(MLLMs)的研究范畴内,可能涉及对模型架构、训练方法等方面的探索,为后续相关研究提供了一定的理论和实践基础,是本文研究的重要参考之一。
引用编号77
- 标题:Learning multiple visual domains with residual adapters
- 作者:Sylvestre - Alvise Rebuffi, Hakan Bilen, and Andrea Vedaldi
- 发表平台:NIPS, 30, 2017
- 主要内容:主要探讨如何通过残差适配器学习多个视觉领域相关知识。该研究成果可能在多模态信息融合、模型对不同视觉数据的处理能力提升等方面具有重要意义,对本文在研究MLLMs如何更好地处理多模态信息,特别是视觉模态相关内容时,起到了关键的参考作用。
- 引用编号20
- 标题:How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites
- 作者:Zhe Chen, Weiyun Wang, Hao Tian
- 发表平台:arXiv:2404.16821
- 主要内容:这篇论文介绍了InternVL 1.5,一个开源的多模态大语言模型(MLLM),旨在缩小开源模型与商业模型在多模态理解上的差距。研究者通过强化视觉编码器、动态高分辨率处理和高质量双语数据集三种改进,使模型在18个多模态基准测试中表现出色,超越多个开源和商业模型,在OCR和中文任务中尤为突出。
- 引用编号45、46
- 标题:
Bootstrapping language-image pre-training for uni-
fied vision-language understanding and generation(BLIP)
Blip-2: Bootstrapping language-image pre-training with
frozen image encoders and large language models
- 主要内容:我之前对这两篇文章做过解读:
BLIP:论文提出了BLIP(Bootstrapping Language-Image Pre-training),一个用于统一视觉-语言理解和生成任务的预训练框架。BLIP通过“引导式”预训练,利用噪声网络数据生成合成描述并过滤噪声,显著提升了图像-文本检索、图像描述生成和视觉问答等任务的性能,并在零样本视频语言任务中展现了强大的泛化能力。
BLIP2:BLIP-2是一种高效的视觉-语言预训练方法,通过冻结预训练的图像编码器和大型语言模型(LLM),利用轻量级的Querying Transformer(Q-Former)桥接模态差距。它分两阶段预训练:第一阶段从图像编码器学习视觉-语言表示,第二阶段从LLM学习视觉到语言的生成能力。BLIP-2在多种视觉-语言任务上达到SOTA性能,同时参数量远少于现有方法,展现出零样本图像到文本生成等新兴能力。
- 引用编号 53
- 标题:Visual instruction tuning
- 主要内容: 这篇是我们熟悉的Llava,haotian liu 的作品。
本文提出了一种名为LLaVA(Large Language and Vision Assistant)的多模态模型,通过使用GPT-4生成视觉指令数据并进行指令调优,实现了视觉和语言的联合理解。LLaVA连接了CLIP视觉编码器和Vicuna语言模型,通过端到端训练,在多模态任务上表现出色,例如在Science QA数据集上达到了92.53%的准确率。此外,作者还构建了LLaVA-Bench基准测试,用于评估多模态指令跟随能力。
- 引用编号 56
- 标题: Interngpt: Solving vision-centric tasks by interacting with chatgpt beyond language
- 作者:Zhaoyang Liu, Yinan He, Wenhai Wang,
- 主要内容:本文介绍了一个名为InternGPT(iGPT)的交互式视觉框架,通过结合聊天机器人(如ChatGPT)和指向性动作(如手势、鼠标操作)来完成视觉任务。该系统包含感知单元、LLM控制器和开放工具包,支持图像编辑、视频标注等复杂视觉任务,显著提高了人机交互效率和任务准确性,尤其在多目标场景中表现优异。
- 引用编号 96
- 标题: Qwen2-vl: Enhancing vision-language model’s perception of the world at any resolution
- 作者:Peng Wang, Shuai Bai, Sinan Tan
- 主要内容:这篇论文介绍了Qwen2-VL系列模型,这是阿里巴巴团队开发的一种先进的视觉-语言模型(VL),旨在突破传统模型对固定分辨率图像处理的限制。Qwen2-VL引入了“Naive Dynamic Resolution”机制,能够动态处理不同分辨率的图像,并将其转换为不同数量的视觉token,从而更高效地生成视觉表示,接近人类的感知方式。此外,模型还集成了多模态旋转位置嵌入(M-RoPE),有效融合了文本、图像和视频中的位置信息,并统一处理图像和视频数据,提升了视觉感知能力。
Qwen2-VL系列包括2B、8B和72B三种参数规模的模型,通过扩展模型规模和训练数据量,在多种多模态基准测试中取得了优异表现,尤其是72B模型,在多模态任务中与GPT-4o和Claude 3.5 Sonnet等领先模型相当,甚至在某些任务中超越了其他通用模型。此外,Qwen2-VL还支持多语言图像文本理解、视频分析、长视频理解(20分钟以上)、视觉问答、文档解析等能力,并具备作为智能代理的潜力。代码已开源,模型权重也已公开,便于研究者和开发者在多种应用中使用。
- 引用编号 99
- 标题: The all-seeing project: Towards panoptic visual recognition and understanding of the open world
- 作者: Weiyun Wang, Min Shi, Qingyun Li,
- 主要内容:这篇论文介绍了“All-Seeing(AS)项目”,旨在构建一个能够全面理解和识别开放世界中一切事物的视觉系统。该项目提出了一个大规模数据集AS-1B和一个统一的视觉语言模型All-Seeing Model(ASM)。
数据集AS-1B:包含超过10亿个图像区域的标注,涵盖350万种常见和稀有概念,标注形式包括语义标签、问答对和详细描述。数据通过一个半自动的数据引擎生成,该引擎结合了现成的视觉/语言模型和人类反馈,显著降低了大规模标注的成本。
模型ASM:基于位置感知的图像文本基础模型,包含位置感知图像编码器和基于LLM的解码器。它能够处理图像级和区域级的视觉语言任务,如图像-文本检索、区域识别、描述生成和问答。ASM在零样本学习任务中表现出色,例如在COCO和LVIS数据集上,ASM的零样本区域识别性能比CLIP高出10.4和14.3个百分点。
总体而言,AS项目通过大规模数据和模型创新,为开放世界中的视觉语言理解提供了一个强大的基础,有望推动视觉语言人工智能的进一步发展。
- 引用编号 100
- 标题:Needle in a multimodal haystack
- 作者:Weiyun Wang, Shuibo Zhang, Yiming Ren
- 主要内容:这篇论文提出了一个多模态大语言模型(MLLMs)的基准测试框架——Needle In A Multimodal Haystack(MM-NIAH),旨在系统评估现有MLLMs对长多模态文档的理解能力。该基准包含三种任务:多模态检索、计数和推理。研究发现,现有模型在这些任务上表现不佳,尤其是在视觉中心的评估中,表明长多模态文档理解仍是一个挑战。论文希望MM-NIAH能为未来研究提供平台,推动MLLMs的发展。
流派二:Pre-trained LLMs with additional fusion layers for vision features
- 引用编号 2
- 标题:Flamingo: a visual language model for few-shot learning
- 作者:Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc
- 主要内容:这篇论文介绍了Flamingo,一种新型的视觉语言模型(VLM),旨在通过少量标注数据快速适应新任务。Flamingo结合了强大的预训练视觉模型和语言模型,通过创新架构实现视觉和文本数据的无缝融合。它能够处理任意交错的图像、视频和文本序列,并生成自由形式的文本输出。Flamingo在大规模多模态网页数据上进行训练,具备上下文学习能力,只需少量示例即可适应多种视觉和语言任务,如视觉问答、图像描述和视频理解。
实验表明,Flamingo在16个基准任务中超越了多种少样本学习方法,并在6个任务上超越了传统微调方法,尽管使用的任务特定数据少得多。此外,Flamingo还可以通过微调进一步提升性能,刷新了5个基准任务的记录。该研究展示了将预训练语言模型与视觉模型结合的强大潜力,为少样本多模态学习开辟了新方向。
- 引用编号 26
- 标题:The llama 3 herd of models
- 作者:Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey
- 主要内容:论文介绍了Llama 3模型,这是Meta开发的一组强大的基础模型,支持多语言、编码、推理和工具使用。最大模型有4050亿参数,支持128K上下文窗口。Llama 3在多项任务上表现与GPT-4相当,且公开发布。此外,研究还探索了将图像、视频和语音能力集成到Llama 3的实验,表现出色。
- 引用编号 91
- 标题:Mm-interleaved: Interleaved image-text generative modeling via multi-modal feature synchronizer
- 作者:Changyao Tian, Xizhou Zhu, Yuwen Xiong
- 主要内容:本文提出了一种名为MM-Interleaved的端到端生成模型,用于处理交错的图文数据。该模型通过多尺度、多图像特征同步器模块,使模型在生成过程中能够直接访问细粒度图像特征,解决了传统方法中固定视觉token无法高效捕捉图像细节的问题。实验表明,该模型在图文理解与生成任务上表现出色,尤其是在多图像场景下具有更高的token效率和生成一致性。
- 引用编号 97
- 标题:Cogvlm: Visual expert for pretrained language
models
- 作者:Weihan Wang, Qingsong Lv, Wenmeng Yu
- 主要内容:CogVLM是一种开源的视觉语言基础模型,通过在预训练语言模型中引入可训练的视觉专家模块,实现了视觉与语言特征的深度融合。该模型在17个经典跨模态基准测试中达到SOTA性能,包括图像描述、视觉问答和视觉定位等任务。其创新的视觉专家模块在注意力和前馈层中为图像特征提供独立的QKV矩阵和MLP,保留了语言模型的原始性能,同时显著提升了多模态任务的表现。
流派三:Vision Encoder free architectures
- 引用编号:62
- 标题:Mono-internvl: Pushing the boundaries of monolithic multimodal large language models with endogenous visual pre-training
- 作者:Gen Luo, Xue Yang, Wenhan Dou
- 主要内容:本文提出了一种新型的单体多模态大语言模型(Monolithic Multimodal Large Language Model, MLLM)——Mono-InternVL,旨在解决现有单体MLLM在优化过程中出现的不稳定性和灾难性遗忘问题。研究团队通过在预训练语言模型(LLM)中嵌入独立的视觉参数空间,提出了“内源性视觉预训练”(EViP)策略,分三个阶段逐步提升模型的视觉能力:概念学习、语义学习和对齐学习。实验表明,Mono-InternVL在16个多模态基准测试中超越了大多数现有单体MLLM,甚至在某些任务上接近或超越了模块化MLLM,同时显著降低了推理延迟(最高减少67%)。该研究为单体MLLM的发展提供了新的思路,证明其在性能和效率上具有巨大潜力。
- 引用编号:50
- 标题:Moma: Efficient early-fusion pretraining with mixture of modality-aware experts
- 作者:Xi Victoria Lin, Akshat Shrivastava, Liang Luo
- 主要内容:这篇论文介绍了一种名为MoMa(Mixture of Modality-Aware Experts)的新型混合专家架构,旨在提高混合模态(文本和图像)早期融合语言模型的预训练效率。MoMa通过将专家模块按模态(文本和图像)分组,实现了模态特定的参数分配和优化。具体而言,MoMa在宽度方向采用混合专家(MoE)机制,将专家分为文本和图像两组,每组仅处理对应模态的标记,并通过学习路由实现语义适应性。在深度方向,结合混合深度(MoD)技术,允许标记在某些层跳过计算。实验表明,在1万亿标记的预训练预算下,MoMa 1.4B模型(4个文本专家和4个图像专家)相比等效计算量的密集基线模型,整体计算效率提升了3.7倍(文本2.6倍,图像5.2倍)。结合MoD后,效率进一步提升至4.2倍,但推理性能因路由精度问题略有下降。此外,论文还提出了一种模态解耦的上循环技术,通过从单专家模型逐步扩展到多专家模型,进一步提高了训练效率。
- 引用编号:87
- 标题:Chameleon: Mixed-modal early-fusion foundation models
- 作者:Chameleon Team
- 主要内容: 这篇论文介绍了 Chameleon,这是一个基于早期融合(early-fusion)的混合模态(mixed-modal)基础模型家族,能够理解和生成任意顺序的图像与文本内容。Chameleon 使用基于离散 token 的统一架构,将图像和文本量化为 token,通过 Transformer 模型进行端到端训练,无需单独的图像/文本编码器。其核心技术包括:
- 架构创新:引入查询-键归一化(QK-Norm)和层归一化的重新排列,解决了多模态训练中的优化不稳定性问题。
- 大规模预训练:使用约 10 万亿个 token 的混合模态数据进行预训练,涵盖纯文本、图文对和交错的图文数据。
- 对齐与微调:通过监督微调(SFT)对模型进行对齐,涵盖文本、代码、视觉对话、图像生成等多种任务数据。
- 性能表现:在视觉问答、图像描述等任务上达到 SOTA 性能,同时在纯文本任务中与 LLaMA-2 等模型相当。此外,Chameleon 在长文本混合模态生成任务中表现优于 Gemini-Pro 和 GPT-4V。
- 引用编号:101
- 标题:Emu3: Next-token prediction is all you need
- 作者:Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo
- 主要内容:这篇论文介绍了Emu3,一种基于单个Transformer的多模态模型,仅通过“下一个token预测”任务进行训练,无需扩散模型或组合架构。Emu3将图像、文本和视频统一编码为离散tokens,然后在一个混合序列上进行端到端训练。它在图像生成、视频生成和视觉语言理解等任务上均达到了SOTA水平,超越了SDXL、LLaVA等知名模型。Emu3的核心贡献在于证明了“下一个token预测”范式在多模态任务中的有效性,同时简化了模型设计,降低了训练和推理的复杂性。此外,Emu3还开源了关键技术和模型,为多模态研究提供了新的方向。
数据侧的贡献
- G-llava: Solving geometric problem with multi-modal large language model
- Omnicorpus: An unified multimodal corpus of 10 billion-level images interleaved with text
- Mminstruct: A high-quality multi-modal instruction tuning dataset with extensive diversity.
- The all-seeing project v2: Towards general relation comprehension of the open world
- Mathglm-vision: Solving mathematical problems with multi-modal large language model
- Mavis: Mathematical visual instruction tuning
Preference Optimization 偏好优化
偏好优化是大模型提升性能的一种重要手段。RLHF用人类偏好作为信号来微调模型。InstructGPT用一个reward model作为人类偏好的代理,通过PPO来最大化奖励函数,让模型更加遵从人类的指令,回答更加有帮助,诚实、更少攻击性。
此外,DPO是一种基于Bradley-Terry模型的高效偏好优化手段。
在NLP中,以上手段得到了充分地探索和运用,然而在多模态领域中,许多这样的方法是来用于减少幻觉。
三、可扩展多模态偏好优化数据生成 Scalable Multimodal Preference Dataset Generation
we construct a million-level MultiModal PReference dataset (MMPR)
数据引擎
定义:MMPR中每一个数据样本包含了
- 图像 I,,从现有数据集中来
- 指示 instruction, ,从现有数据集中来
- 选定答案
- 拒绝答案
和 分别代表正负样本的集合。当给定一个图像I,一个指示x,我们从初始的模型 中采样候选回答 :
代表一个条件为x和I的回答分布,
对于有明确ground truths的instructions:
the model is prompted to first provide the reasoning process and then
give the final answer in the format like:
Final Answer:***和ground truth 匹配的回答被列为正样本,不匹配的被列为负样本。那些较模糊的、不准确的回答也被列为负样本。然后我们就可以基于此建造接受样本和拒绝样本了。
对于没有明确ground truths的instructions:Dropout NTP
还是按上面的流程来,不一样的是认为所有的候选回答都是正样本。为了构造负样本,我们把正样本回答切成两半,然后模型来补全剩下的一半

是剩余部分, 是被切掉的部分。 是模型补全部分。这样一来,原本的结果就是接受样本,补全的结果就是拒绝样本。值得注意的是,尽管初始模型M_0生成结果可能不完美,但相比于完全没有图像信息的,仅基于上半句话的补全回答,会引入更多的幻觉。因此我们的这种preference的假设仍然正确。
相比于更加复杂的Divide-and-counquer 方法,我们这种方法更加简单,却一样有效。以M3CoT这个数据生成任务来说,在生成每个偏好对时,我们的方法平均消耗token 571.2个,然而RLAIF-V方法要消耗992.7个。我们提出的方法的资源消耗仅是其的一半。

多模态偏好数据
MMPR 数据集包含约 75 万个无明确事实依据的样本和约 250 万个有明确事实依据的样本。无明确事实依据样本的每条指令平均包含 25.0 个标记,其选择响应和拒绝响应平均分别包含 211.4 个标记和 171.2 个标记。有明确事实依据样本的平均指令长度为 79.5 个标记,其选择响应和拒绝响应平均分别为 300.0 个标记和 350.5 个标记。
为确保指令和图像的多样性,我们从通用视觉问答、科学、图表、数学、光学字符识别(OCR)以及文档等多个领域收集样本。在构建开放式样本时,我们从上述所有数据源收集指令。而通过基于正确性的流水线构建样本时,我们排除了通用视觉问答和文档来源的问题,因为这些领域数据集中生成答案的正确性难以通过启发式规则进行验证。

For example, the ground truths in VQAv2 [29] consist of a single
word or phrase, which may lead to false-negative responses
when the model outputs a complete sentence or a synonym
as the final answer. Such false-negative responses can neg-
atively impact training effectiveness.
四、Improved Multimodal Large Language Model with Preference Optimization
4. 基于偏好优化的改进型多模态大语言模型
4.1 混合偏好优化
在使用直接偏好优化(DPO)训练多模态大语言模型(MLLMs)时,我们观察到模型在推理过程中可能会生成不合理的推理以及胡言乱语。为了解决这个问题,我们引入了混合偏好优化(MPO)方法。该方法旨在让模型学习响应对之间的相对偏好、个体响应的绝对质量以及生成偏好响应的过程。
我们的训练目标是偏好损失 、质量损失 和生成损失 的组合,即
基于我们的实验结果,我们使用 DPO 作为偏好损失,并使用 BCO 作为质量损失。
偏好损失
偏好损失。DPO 方法使得模型能够学习选择响应和拒绝响应之间的相对偏好。给定一个图像 - 指令对 ,以及选择响应 和拒绝响应 ,DPO不用训练一个奖励模型,而是直接对原模型进行训练,训练的目标是最大化以下偏好函数:

其中 是KL散度惩罚系数,, 和 是user query,选择的回答和拒绝的回答。代理模型由原本的LLM初始化而来。
质量损失
为了帮助模型理解个体响应的绝对质量,我们使用二进制分类优化(BCO)。我们训练一个二进制分类器,该分类器将选择响应映射到 1,将拒绝响应映射到 0。BCO 的损失函数可以表示为:
其中 和 代表选择样本和拒绝样本的损失。分别计算

其中, 代表奖励偏移,用moving average方法来计算前几步的奖励。
生成损失
我们使用监督微调(SFT)损失来帮助模型学习生成偏好响应的过程。SFT 的损失函数可以表示为:

4.2 多模态输入下的思维链
在数据采样过程中,我们要求模型提供详细的思维链(CoT)推理过程,而不是直接给出最终答案。为了实现这一点,我们引入了以下几种思维链方法:
基于背景知识的思维链。这种方法适用于科学领域的样本。首先,我们引入相关的背景知识,然后基于这些知识进行推理,并最终给出答案。例如,对于一个关于物理现象的问题,我们首先提供相关的物理定律和概念,然后逐步推导得出答案。
基于视觉内容的思维链。这种方法用于图表、光学字符识别(OCR)和文档领域的样本。我们首先分析图像中的视觉内容,例如图表中的数据、文档中的文本信息等,然后基于这些分析进行推理,并最终给出答案。
基于Grounded(推理定位)的思维链。这种方法应用于通用视觉问答(VQA)领域的样本。在生成文本响应的同时,我们将响应中所有引用的对象链接到图像中的相应区域。这样可以使模型的推理过程更加基于视觉基础,提高推理的准确性。
这些方法不仅有效地将多模态信息整合到推理过程中,还增强了数据的多样性。此外,它们还提高了通过 DropoutNTP 生成的负响应的质量,防止正负样本之间的质量差距过大,从而影响训练效果。
五、实验部分
主要结果

消融实验



- Author:Yixin Huang
- URL:https://yixinhuang.cn/article/vlm-training-mpo
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!



