AI前沿论文深度解读 | 2026-04-07

Daily-Omni：多模态大模型，真的会“同时看懂画面和声音”吗？

日期：2026年04月07日
适合读者：本科生、研究生、AI 从业者、多模态方向学习者
阅读时间：约 10 分钟
难度等级：中等

一、为什么这篇论文值得看？

这篇论文讨论的不是“怎么把模型做得更大”，而是一个更尖锐的问题：

很多多模态大模型看图很强、听音频也不差，但它们未必真的能把某一时刻的声音和某一时刻的画面对上。

比如一个视频里，门突然被关上，画面上是一个人伸手拉门，音频里是“砰”的一声。人类会自然把这两个事件对齐，知道这是同一个动作的视觉和声音表现。但对模型来说，这件事并不简单。

论文《Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities》正是围绕这个问题展开。作者提出了一个新的音视频问答 benchmark，用来测试模型是否具备真正的跨模态时间对齐推理能力。

二、论文到底在做什么？

2.1 核心目标

作者想解决的问题可以概括为一句话：

现有 MLLM 是否真的理解了“声音和画面在什么时间对应发生”，而不只是分别做了视觉理解和音频理解？

这也是这篇论文最有价值的地方。它把一个过去经常被平均分掩盖的问题，单独拎出来测了。

2.2 提出的数据集：Daily-Omni

论文提出了一个新的多选问答基准 Daily-Omni，主要特点如下：

包含 684 个真实世界视频
共 1197 道多项选择题
视频片段长度包括 30 秒和 60 秒两种
覆盖 11 类 YouTube 日常场景
聚焦 6 类任务：
- 音视频事件对齐
- 事件顺序判断
- 因果与理由推理
- 隐含信息推断
- 多事件比较
- 上下文理解

这说明它不是一个单纯考“看见了什么”或“听见了什么”的数据集，而是专门考模型是否能把多模态信息按时间组织起来。

三、作者是怎么构建这个 benchmark 的？

论文的数据构建流程很完整，基本可以分成 5 步。

3.1 分段标注，降低长视频理解难度

作者先把视频切成 3 段，再分别做视觉标注和音频标注。这样做的目的很明确：

长音频直接喂给模型时，质量容易下降
分段之后，更容易提取细粒度事件
后续更方便做时间对齐

3.2 先分模态标注，再做一致性修正

作者没有直接让模型一次性“看视频听声音然后总结”，而是先分开做：

只看视频，生成视觉事件描述
只听音频，生成音频事件描述

这样是为了减少跨模态幻觉。之后再用完整视频检查视觉标注的一致性，并借助推理模型结合视觉信息去修正音频事件，比如把模糊的“撞击声”改成“门被猛地关上的声音”。

3.3 显式建立音视频事件对齐关系

这是论文最关键的一步。

作者不满足于只得到“这一段视频里发生了什么”“这一段音频里出现了什么”，而是进一步要求模型找出：

哪个视觉事件和哪个音频事件是在同一时间发生的。

这个“事件对”就是后续构建高质量问答的基础。

3.4 自动生成问题，再过滤文本泄漏

作者用推理模型自动生成选择题，但又做了一个很聪明的控制：

如果一个强大的 text-only LLM 在不看视频、不听音频的情况下，仅凭题干和选项就能答对，那么这道题就会被丢掉。

这一步很重要，因为它减少了“语言模型靠文字猜中答案”的风险，让 benchmark 更能测出真实的多模态能力。

3.5 人工最终审核

最后，作者还做了人工审核，确保：

每道题只有一个明确正确答案
正确答案确实成立
这道题真的需要音视频联合理解

所以这篇论文虽然用了很多自动化生成手段，但并不是“粗糙合成题库”，而是一个质量控制比较严的 benchmark。

四、论文最核心的创新点是什么？

我认为这篇论文有 4 个比较突出的创新点。

4.1 把“跨模态时间对齐”单独定义成核心能力

很多以往的多模态 benchmark 更关注结果对不对，却不太关心模型是否真的建立了“声音-画面”的时序对应关系。Daily-Omni 明确把这个能力当成主角。

4.2 数据构建流程可扩展

作者不是纯手工写题，而是设计了一个半自动流程：标注、修正、对齐、出题、过滤、人工审核。这样未来更容易扩展到更大规模。

4.3 做了强约束的文本泄漏过滤

这一点很加分。很多 benchmark 看似测多模态，实际上 text-only 模型也能拿到不低分数。作者显然意识到了这个问题，并做了针对性处理。

4.4 给出了一个训练自由的诊断型 baseline

作者还构建了一个 Daily-Omni Agent，把多个现成模型串起来，显式做事件定位和局部对齐。这个 baseline 的价值不只是提供分数，更重要的是帮助分析：

问题到底出在模型不会看、不会听，还是不会对齐。

五、实验结果说明了什么？

5.1 现有模型确实还有明显短板

论文评测了 24 个基础模型、37 种模型-模态设置。结果表明：

顶级模型能做到 70% 多的准确率，但距离“解决问题”还有明显差距
一些较早的 omni 模型表现甚至接近 text-only 模型
说明“支持音频+视频输入”不等于“真正具备跨模态时间推理能力”

5.2 强模型也依然依赖双模态联合输入

作者做了模态消融实验。以 Gemini 2.5 Flash 为例：

全模态：73.06%
只有音频：54.05%
只有视频：44.61%

这个结果很有说服力，说明这份 benchmark 不是视觉偏置数据集，也不是靠文本猜题的数据集，而是真的要求音视频协同。

5.3 显式对齐是有效的

作者的训练自由基线 Daily-Omni Agent 达到了 61.82%。这件事很关键，因为它说明：

即便不重新训练大模型，只要把“时间对齐”这件事显式做出来，性能也能明显提升。

换句话说，很多统一式多模态模型的真正瓶颈，可能就在于没有把对齐机制处理好。

六、这篇论文的优点与不足

6.1 优点

问题切得很准，抓住了多模态理解中的核心难点
benchmark 设计有现实意义，不是只做简单识别题
数据构建流程完整，工程可借鉴性很强
文本泄漏过滤做得比较认真
消融实验能支撑主要结论
baseline 具有很好的诊断价值

6.2 不足

数据规模还不算特别大，1197 道题对超大模型来说仍偏小
数据构建依赖强闭源模型，完全复现的成本较高
事件对齐本身也可能受上游模型误差影响
数据集排除了非英语和部分静态场景，覆盖面是有边界的

七、对我们做研究有什么启发？

如果你在做多模态方向，这篇论文至少给出 3 个明确启发。

7.1 未来不只是“做更大的模型”

很多时候大家默认模型不够强，是因为参数不够大、数据不够多。但这篇论文提醒我们：

结构问题和表示问题同样关键。

如果模型没有显式或隐式地学会“跨模态时间同步”，那它就很难真正理解复杂音视频场景。

7.2 Event-level grounding 很重要

以后做音视频 MLLM，可能要重点加强：

事件级时间定位
跨模态位置编码
局部时间窗对齐
alignment-aware training objective

7.3 Benchmark 不只是打榜工具

一个好的 benchmark 不只是“排个名次”，更应该告诉我们模型究竟差在哪里。Daily-Omni 在这一点上做得不错，它既能评测，也能诊断。

八、我的总体评价

如果把这篇论文放到文献综述里，我会把它归类为：

音视频多模态理解中的 benchmark / evaluation / diagnostic work

而不是模型结构创新论文。

它最重要的贡献不是提出了一个全新的大模型，而是把“跨模态时间对齐”这个关键能力显式测出来，并用实验证明：

当前很多多模态模型真正的瓶颈，不在于看不见、听不见，而在于没能把看到的和听到的在正确的时间维度上对应起来。

这也是它对后续研究最有价值的地方。

九、适合写进综述里的总结句

Daily-Omni 将音视频联合理解中的“跨模态时间对齐”能力从隐含假设转化为显式评测目标。实验表明，即便是先进的 omni-modal 模型，在对齐敏感问题上仍存在明显性能瓶颈；因此，未来音视频多模态模型的关键突破方向，可能不只是扩大模型规模，而是强化事件级 temporal grounding、跨模态位置建模与显式同步机制。

十、参考信息

论文题目：Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities
arXiv：2505.17862v2
版本日期：2026-03-10

AI前沿论文深度解读 | 2026年04月07日