Summary

AURA 提出了一个 streaming video interaction 框架,通过双滑动窗口上下文管理、三种 QA 交互模式和 Silent-Speech Balanced Loss,使 Video LLM 能够持续处理视频流并支持实时问答与主动响应,在多个 streaming benchmark 上取得 SOTA。

Problem & Motivation

现有 VideoLLM 大多在 offline 场景下工作,即处理已经录制完成的视频,无法处理需要持续观察和即时响应的 live video stream。现有 streaming VideoLLM 存在两个主要局限:(1) decoupled architecture 使用独立的 trigger model,与响应生成缺乏一致性;(2) unified architecture 仅限于 captioning 式叙述,缺乏 robust 的 open-ended QA 能力。这个问题对于 always-on visual assistant(如可穿戴设备、实时监控、视频通话辅助)至关重要。

Method

Interactive Video Stream Context Management:采用双滑动窗口策略管理无界视频流和交互历史——维护 30 秒视频窗口(N=30)和 10 组最近 QA 历史(M=10)。视频以 chunk-wise conversational format 组织,每个 chunk 附带可选 user query,assistant 响应或输出 <|silent|> token 表示无需回复。

三种 QA 交互模式

  • Real-Time QA:基于当前观察立即响应
  • Proactive QA:在积累足够未来证据后延迟响应(主动触发)
  • Multi-Response QA:跟踪演变事件,无需重复提问即可多次响应

Coarse-to-Fine Data Engine:五阶段 pipeline 构建 115k streaming 训练样本(约 1.04B tokens):Video Preparation(2 FPS 标准化)→ QA Synthesis(MLLM 生成带时间戳的 QA)→ QA Refinement(难度增强与改写)→ Streaming Structuring(转换为 streaming 格式)→ Quality Verification(过滤幻觉样本)。

Silent-Speech Balanced Loss:解决两个训练问题——(1) 仅对最后一个 non-silent assistant message 施加监督(早期响应可能因截断缺乏视觉支持);(2) 对 silent token 进行权重重平衡(w_silent = 1/N_silent),防止模型过度预测 silence。

Real-Time Inference Framework:集成 ASR 和 TTS 模块,通过 KV-cache prefix reuse(floating-window 策略,margin N’=15)、streaming output、异步运算实现端到端低延迟推理。

Key Results

StreamingBench:73.1% overall accuracy,超越 MiniCPM-o-4.5 10.4%,超越 Gemini-1.5-Pro 6.0%。

OVO-Bench:65.3% overall accuracy,超越 ViSpeak 4.2%,超越 Gemini-1.5-Pro 2.3%。

OmniMMI:25.4% overall accuracy,所有模型中最优,9 个细粒度指标中 5 个排名第一。

推理延迟:TTFT 75.0ms,端到端延迟约 312.2ms(ASR 84.2ms + TTFT 75ms + decoding 60ms + TTS 93ms),2 FPS on two 80G accelerators。

Offline 性能基本保持:LongVideoBench 58.8%(base 61.9%),MVBench 68.1%(base 69.0%),Video-MME 65.1%(base 68.6%),下降幅度可控。

Ablation:将 Silent-Speech Balanced Loss 替换为标准 cross-entropy 后,OmniMMI 从 25.4% 降至 16.4%,Proactive Alerting 从 37.5% 降至 0.0%(模型陷入持续输出 silence),证明该 loss 设计的必要性。

Strengths & Weaknesses

Strengths

  • 问题定义清晰且重要——streaming video interaction 是 Video LLM 走向实际应用的关键能力,三种 QA 模式的划分(尤其是 Proactive 和 Multi-Response)比现有工作更完整
  • Silent-Speech Balanced Loss 设计简洁有效,ablation 结果极具说服力(Proactive 从 37.5% 到 0%)
  • 数据构建 pipeline 系统化,从 raw video 到 streaming format 的转换流程可复用
  • 端到端延迟约 312ms,已经接近实时交互的可用阈值

Weaknesses

  • 硬件要求高(two 80G accelerators),限制了实际部署场景
  • 30 秒视频窗口 + 10 组 QA 历史的固定上下文设计,可能在需要长程依赖的场景中丢失关键信息
  • Offline 性能有可测量的下降(LongVideoBench -3.1%, Video-MME -3.5%),streaming 与 offline 之间存在固有优化张力
  • 训练数据完全依赖 MLLM 合成,可能引入 teacher model 的 bias
  • Base model 为 Qwen3-VL-8B,仅 fine-tune LLM 部分(vision encoder 和 connector frozen),未探讨更大规模模型或端到端训练的效果

Mind Map

mindmap
  root((AURA))
    Problem
      Offline VideoLLM 无法处理 live stream
      Decoupled architecture 缺乏一致性
      Unified architecture 仅限 captioning
    Method
      双滑动窗口上下文管理
      三种 QA 模式 Real-Time/Proactive/Multi-Response
      Silent-Speech Balanced Loss
      Coarse-to-Fine Data Engine 115k samples
      KV-cache prefix reuse 推理优化
    Results
      StreamingBench 73.1% SOTA
      OVO-Bench 65.3% SOTA
      OmniMMI 25.4% SOTA
      端到端延迟 312ms at 2 FPS

Notes

  • Streaming Video LLM 是一个快速发展的方向,AURA 的 context management 和 loss 设计值得关注
  • Proactive QA 的能力对 embodied AI 场景(如机器人持续观察环境并主动提醒)有直接启发
  • Silent token 的处理是 streaming 场景的独特挑战,balanced loss 的思路可推广到其他需要”何时说话”决策的系统