AI前沿论文深度解读 | 2026-04-07

Daily-Omni:多模态大模型,真的会“同时看懂画面和声音”吗?

日期:2026年04月07日
适合读者:本科生、研究生、AI 从业者、多模态方向学习者
阅读时间:约 10 分钟
难度等级:中等

一、为什么这篇论文值得看?

这篇论文讨论的不是“怎么把模型做得更大”,而是一个更尖锐的问题:

很多多模态大模型看图很强、听音频也不差,但它们未必真的能把某一时刻的声音和某一时刻的画面对上。

比如一个视频里,门突然被关上,画面上是一个人伸手拉门,音频里是“砰”的一声。人类会自然把这两个事件对齐,知道这是同一个动作的视觉和声音表现。但对模型来说,这件事并不简单。

论文《Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities》正是围绕这个问题展开。作者提出了一个新的音视频问答 benchmark,用来测试模型是否具备真正的跨模态时间对齐推理能力

二、论文到底在做什么?

2.1 核心目标

作者想解决的问题可以概括为一句话:

现有 MLLM 是否真的理解了“声音和画面在什么时间对应发生”,而不只是分别做了视觉理解和音频理解?

这也是这篇论文最有价值的地方。它把一个过去经常被平均分掩盖的问题,单独拎出来测了。

2.2 提出的数据集:Daily-Omni

论文提出了一个新的多选问答基准 Daily-Omni,主要特点如下:

  • 包含 684 个真实世界视频
  • 共 1197 道多项选择题
  • 视频片段长度包括 30 秒和 60 秒两种
  • 覆盖 11 类 YouTube 日常场景
  • 聚焦 6 类任务:
    • 音视频事件对齐
    • 事件顺序判断
    • 因果与理由推理
    • 隐含信息推断
    • 多事件比较
    • 上下文理解

这说明它不是一个单纯考“看见了什么”或“听见了什么”的数据集,而是专门考模型是否能把多模态信息按时间组织起来。

三、作者是怎么构建这个 benchmark 的?

论文的数据构建流程很完整,基本可以分成 5 步。

3.1 分段标注,降低长视频理解难度

作者先把视频切成 3 段,再分别做视觉标注和音频标注。这样做的目的很明确:

  • 长音频直接喂给模型时,质量容易下降
  • 分段之后,更容易提取细粒度事件
  • 后续更方便做时间对齐

3.2 先分模态标注,再做一致性修正

作者没有直接让模型一次性“看视频听声音然后总结”,而是先分开做:

  • 只看视频,生成视觉事件描述
  • 只听音频,生成音频事件描述

这样是为了减少跨模态幻觉。之后再用完整视频检查视觉标注的一致性,并借助推理模型结合视觉信息去修正音频事件,比如把模糊的“撞击声”改成“门被猛地关上的声音”。

3.3 显式建立音视频事件对齐关系

这是论文最关键的一步。

作者不满足于只得到“这一段视频里发生了什么”“这一段音频里出现了什么”,而是进一步要求模型找出:

哪个视觉事件和哪个音频事件是在同一时间发生的。

这个“事件对”就是后续构建高质量问答的基础。

3.4 自动生成问题,再过滤文本泄漏

作者用推理模型自动生成选择题,但又做了一个很聪明的控制:

如果一个强大的 text-only LLM 在不看视频、不听音频的情况下,仅凭题干和选项就能答对,那么这道题就会被丢掉。

这一步很重要,因为它减少了“语言模型靠文字猜中答案”的风险,让 benchmark 更能测出真实的多模态能力。

3.5 人工最终审核

最后,作者还做了人工审核,确保:

  • 每道题只有一个明确正确答案
  • 正确答案确实成立
  • 这道题真的需要音视频联合理解

所以这篇论文虽然用了很多自动化生成手段,但并不是“粗糙合成题库”,而是一个质量控制比较严的 benchmark。

四、论文最核心的创新点是什么?

我认为这篇论文有 4 个比较突出的创新点。

4.1 把“跨模态时间对齐”单独定义成核心能力

很多以往的多模态 benchmark 更关注结果对不对,却不太关心模型是否真的建立了“声音-画面”的时序对应关系。Daily-Omni 明确把这个能力当成主角。

4.2 数据构建流程可扩展

作者不是纯手工写题,而是设计了一个半自动流程:标注、修正、对齐、出题、过滤、人工审核。这样未来更容易扩展到更大规模。

4.3 做了强约束的文本泄漏过滤

这一点很加分。很多 benchmark 看似测多模态,实际上 text-only 模型也能拿到不低分数。作者显然意识到了这个问题,并做了针对性处理。

4.4 给出了一个训练自由的诊断型 baseline

作者还构建了一个 Daily-Omni Agent,把多个现成模型串起来,显式做事件定位和局部对齐。这个 baseline 的价值不只是提供分数,更重要的是帮助分析:

问题到底出在模型不会看、不会听,还是不会对齐。

五、实验结果说明了什么?

5.1 现有模型确实还有明显短板

论文评测了 24 个基础模型、37 种模型-模态设置。结果表明:

  • 顶级模型能做到 70% 多的准确率,但距离“解决问题”还有明显差距
  • 一些较早的 omni 模型表现甚至接近 text-only 模型
  • 说明“支持音频+视频输入”不等于“真正具备跨模态时间推理能力”

5.2 强模型也依然依赖双模态联合输入

作者做了模态消融实验。以 Gemini 2.5 Flash 为例:

  • 全模态:73.06%
  • 只有音频:54.05%
  • 只有视频:44.61%

这个结果很有说服力,说明这份 benchmark 不是视觉偏置数据集,也不是靠文本猜题的数据集,而是真的要求音视频协同。

5.3 显式对齐是有效的

作者的训练自由基线 Daily-Omni Agent 达到了 61.82%。这件事很关键,因为它说明:

即便不重新训练大模型,只要把“时间对齐”这件事显式做出来,性能也能明显提升。

换句话说,很多统一式多模态模型的真正瓶颈,可能就在于没有把对齐机制处理好。

六、这篇论文的优点与不足

6.1 优点

  • 问题切得很准,抓住了多模态理解中的核心难点
  • benchmark 设计有现实意义,不是只做简单识别题
  • 数据构建流程完整,工程可借鉴性很强
  • 文本泄漏过滤做得比较认真
  • 消融实验能支撑主要结论
  • baseline 具有很好的诊断价值

6.2 不足

  • 数据规模还不算特别大,1197 道题对超大模型来说仍偏小
  • 数据构建依赖强闭源模型,完全复现的成本较高
  • 事件对齐本身也可能受上游模型误差影响
  • 数据集排除了非英语和部分静态场景,覆盖面是有边界的

七、对我们做研究有什么启发?

如果你在做多模态方向,这篇论文至少给出 3 个明确启发。

7.1 未来不只是“做更大的模型”

很多时候大家默认模型不够强,是因为参数不够大、数据不够多。但这篇论文提醒我们:

结构问题和表示问题同样关键。

如果模型没有显式或隐式地学会“跨模态时间同步”,那它就很难真正理解复杂音视频场景。

7.2 Event-level grounding 很重要

以后做音视频 MLLM,可能要重点加强:

  • 事件级时间定位
  • 跨模态位置编码
  • 局部时间窗对齐
  • alignment-aware training objective

7.3 Benchmark 不只是打榜工具

一个好的 benchmark 不只是“排个名次”,更应该告诉我们模型究竟差在哪里。Daily-Omni 在这一点上做得不错,它既能评测,也能诊断。

八、我的总体评价

如果把这篇论文放到文献综述里,我会把它归类为:

音视频多模态理解中的 benchmark / evaluation / diagnostic work

而不是模型结构创新论文。

它最重要的贡献不是提出了一个全新的大模型,而是把“跨模态时间对齐”这个关键能力显式测出来,并用实验证明:

当前很多多模态模型真正的瓶颈,不在于看不见、听不见,而在于没能把看到的和听到的在正确的时间维度上对应起来。

这也是它对后续研究最有价值的地方。

九、适合写进综述里的总结句

Daily-Omni 将音视频联合理解中的“跨模态时间对齐”能力从隐含假设转化为显式评测目标。实验表明,即便是先进的 omni-modal 模型,在对齐敏感问题上仍存在明显性能瓶颈;因此,未来音视频多模态模型的关键突破方向,可能不只是扩大模型规模,而是强化事件级 temporal grounding、跨模态位置建模与显式同步机制。

十、参考信息

  • 论文题目:Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities
  • arXiv:2505.17862v2
  • 版本日期:2026-03-10

标签

#DailyOmni #多模态AI #音视频理解 #MLLM #Benchmark #论文解读