Summary
AURA: Always-On Understanding and Real-Time Assistance via Video Streams
- 核心: 端到端 streaming VideoLLM,把”是否回答”和”回答内容”统一进同一个模型,覆盖 real-time / proactive / multi-response 三种 streaming QA 模式
- 方法: dual sliding-window context + chunk-wise
<|silent|>格式 + 五阶段 coarse-to-fine 数据合成 + Silent-Speech Balanced Loss + vLLM-based 推理 + 浮动窗口保留 prefix KV cache- 结果: StreamingBench 73.1% / OVO-Bench 65.3% / OmniMMI 25.4%,均开源 SOTA;端到端 ASR+VLM+TTS 延迟 ~312ms,2 FPS on 2×80G accelerators
- Sources: paper | website | github
- Rating: 2 - Frontier(streaming VideoLLM 方向开源 SOTA,Silent-Speech Balanced Loss 设计 sharp,是必比 baseline;但 base 升级 vs method 贡献未拆分、数据不可复现,未达 Foundation)
Key Takeaways:
- 统一架构 vs 解耦架构: 与 Dispider/StreamBridge 的 trigger+responder 双模型方案对比,AURA 把”沉默或回答”作为单一模型每个 chunk 的输出决策(
<|silent|>token),避免 trigger 与 responder 状态不一致的问题。 - Silent-Speech Balanced Loss 是关键: ablation 显示去掉这个 loss 后 OmniMMI 总分从 25.4% 跌到 16.4%,Proactive Alerting 直接跌到 0%——模型完全不说话。说明 streaming 训练中的 silent token 不平衡是核心瓶颈。
- Floating-window prefix caching: 不用每加一帧就 evict(破坏 KV cache prefix),而是允许窗口 floating 到 N+N′ 后批量 evict N′ 个,把 prefix cache 复用最大化。这是工程层面的关键优化。
- Streaming 训练对 offline 性能的代价较小: AURA 在 Video-MME / LongVideoBench 上比 base Qwen3-VL-8B 掉 3.5% / 3.1%,MVBench 仅掉 0.9%——streaming 化大体保留了 offline 能力。
Teaser. AURA 的端到端 streaming 系统:用户语音 → ASR → AURA VideoLLM 按秒级 chunk 处理视频 + dual sliding-window context → TTS 输出。
Figure 1. Interactive Video Stream Context Management(dual sliding-window)

1 Problem & Motivation
主流 VideoLLM (e.g. Qwen3-VL, InternVL3.5, LongVU) 都是 offline——给定完整视频后做 post-hoc 分析。streaming 场景需要:连续观测、选择性沉默、及时响应、长时段稳定。
作者把现有 streaming VideoLLM 分成两类,并指出各自缺陷:
| 类别 | 代表 | 缺陷 |
|---|---|---|
| Decoupled | Dispider, StreamBridge | trigger 与 responder 是两个独立模型,trigger 没有 responder 的上下文,触发准确率与回答一致性差 |
| Unified(captioning-only) | VideoLLM-online, StreamingVLM | 仅支持 narration,不能做开放式 QA |
| Unified(full-duplex) | MiniCPM-o-4.5 | 长时段(>2 min)会 silent overflow 或退化 |
❓ 实际上 Decoupled 设计的优势是 trigger 模型可以更小更快,把”何时回答”与”回答什么”解耦;AURA 把两者合一,意味着每个 chunk 都要走一次主模型 forward。优势在效果,代价在算力——但作者用 prefix cache reuse 把 forward 摊薄了。
2 Interactive Video Stream Context Management
这是 AURA 整个 framework 的 backbone。
2.1 Chunk-wise Conversational Format
视频按 1 秒一个 chunk 切分。每个 chunk 对应一个 user message(带或不带 user query)+ 一个 assistant message(response 文本或者 <|silent|> 特殊 token)。这个统一格式让模型把”沉默”和”回答”都当作生成任务。
2.2 Dual Sliding-Window Strategy
- 视觉窗口:保留最近 秒(默认 )。视觉 token 密度高,价值集中在最近内容。
- QA 窗口:保留最近 个 QA group(默认 )。文本 token 便宜,且承载用户意图。
- 落在 video 窗口外、QA 窗口内的 chunk:丢弃视觉 token 与 silent token,只保留有效文本。
2.3 三种 Streaming QA 模式
Figure 2. 三种 streaming QA 类型

- Real-Time QA: query 时立刻回答(基于当前/历史观测)。
- Proactive QA: 用户提问后保持沉默,等到未来证据充分再答(“帮我盯着烧水壶”类)。
- Multi-Response QA: 一个 query 触发持续监控,沿时间轴产生多个回答(不需要用户重复发问)。
这三种模式对应实际产品形态里的不同交互需求——尤其 Proactive 是 always-on assistant 的核心差异化能力。
3 Coarse-to-Fine Streaming Data Engine
Figure 3. 五阶段数据 pipeline

五阶段:
- Video Preparation: 从公网收集 sports/vlog/documentary/movie/games 等多类视频,统一 resample 到 2 FPS、转 H.264 编码避免解码出错。
- QA Synthesis: 两条 pipeline 分别处理 Real-Time/Proactive 和 Multi-Response。MLLM 先做 scene segmentation + scene-level descriptions,然后基于 scene 描述生成带 timestamp 的候选 QA。Real-Time QA 的 question/answer timestamp 重合,Proactive QA 的 question 在 answer 之前。然后 MLLM 自检:是否合理、是否被视觉支持、timestamp 是否合适。
- QA Refinement: 不同 QA 类型用不同策略增加 diversity——Real-Time 在每个 timestamp 生成 4 个不同难度等级(perception → reasoning)的额外 question 然后均衡采样;Proactive 和 Multi-Response 用 template-based rewriting 增加表达多样性,关键实体/动作/时间不变。
- Streaming Structuring: 把每个连续 QA sequence unroll 成多个训练样本,每个样本以一个 non-silent target answer 为锚,截取窗口内的视频和历史。这一步把数据格式对齐到 inference 时的 dual sliding-window。
- Quality Verification: 由于 windowing 截断可能让保留的视觉/历史无法支持 target answer,在这一步用 judge 检查 visual grounding、factual correctness、temporal consistency、hallucination-free。不通过的样本直接丢弃。
两个补充设计:
- 在 user query 后面插入一个 short acknowledgment(“收到,稍后回复”),改善 Proactive/Multi-Response 的用户体验。
- 把同一视频的不同 QA 类型按 timestamp 混合成一个 mixed interaction sequence,让模型学会处理交错模式。
4 Silent-Speech Balanced Loss
两个核心训练问题:
问题 1:监督选什么? 由于 windowing,早期的 non-silent assistant message 在截断后可能不再被视觉/历史完整支持。如果都监督,模型会学到”凭印象答”。 → 解法:只对 silent message 和最后一个 non-silent message 算 loss。
问题 2:silent 远多于 speech。直接 CE loss 会让模型 collapse 到永远沉默。 → 解法:silent token 按 下采权,non-silent 保持权重 1。
Equation 1. Silent-Speech Balanced Loss
符号说明: 是监督 mask(仅在 silent message 或最后一个 non-silent message 上为 1), 是当前样本中 silent message 的数量, 是类别均衡权重。
含义:保留大量 silent 监督让模型学会”何时不说话”,但不让 silent 主导优化信号。
这是这篇论文最 simple 但最 critical 的设计——后面 ablation 数据非常说明问题。
5 Real-Time Streaming Inference Framework
Figure 4. 端到端推理系统

系统组成:ASR (Qwen3-ASR-1.7B) → AURA (Qwen3-VL-8B 微调) → 流式 TTS (Qwen3-TTS-12Hz-1.7B-Base),三者异步。
Floating-window Prefix Cache 优化
朴素做法:维护固定长度 FIFO 队列,每加一个新 chunk 就 evict 最旧的 → 上下文 prefix 持续变化 → KV prefix cache 完全失效。
AURA 的做法:
- 视觉窗口允许 floating 到 (默认 ),到达上限后一次性 evict 最旧 个 chunk。
- 接下来 个 chunk 的插入期间不做任何 evict → prefix 稳定 → KV prefix cache 全部复用。
- QA 窗口同步在视频窗口截断时一并 trim 到 ,避免单独触发。
这是 streaming inference 的工程关键。一句话总结:用 batch eviction 换 prefix cache 命中率。延迟实测见 Table 4。
6 Experiments
6.1 Setup
- Base: Qwen3-VL-8B-Instruct,仅微调 LLM 部分,vision encoder + connector 冻结。
- 训练数据:~115k streaming samples (~1.04B tokens) + ~59k offline (~0.16B tokens),总 ~1.2B tokens。
- 训练:4 nodes × 8 accelerators (80G HBM3),1 epoch,global bs=128,lr=1e-5。
- ,chunk size = 1 秒。
6.2 Streaming Benchmarks 主结果
Table 1. StreamingBench 结果(accuracy %)
| Method | RTVU Avg | OSU Avg | CU Avg | All |
|---|---|---|---|---|
| GPT-4o | 73.3 | 44.5 | 38.7 | 60.2 |
| Gemini-1.5-Pro | 75.7 | 60.2 | 48.7 | 67.1 |
| Qwen3-VL-8B-Inst. (base) | 74.1 | 41.9 | 39.8 | 59.3 |
| MiniCPM-o-4.5 | 78.2 | 42.1 | 44.5 | 62.7 |
| ViSpeak | 70.4 | 61.6 | 43.9 | 62.6 |
| AURA (Ours) | 83.2 | 62.0 | 59.0 | 73.1 |
总分比最强开源 baseline (MiniCPM-o-4.5) 高 10.4%,比 Gemini-1.5-Pro 高 6.0%。
Table 2. OVO-Bench 结果(accuracy %)
| Method | RTVP Avg | BT Avg | FAR Avg | All |
|---|---|---|---|---|
| Gemini-1.5-Pro | 69.3 | 62.5 | 57.2 | 63.0 |
| ViSpeak | 66.3 | 57.5 | 54.3 | 61.1 |
| MiniCPM-o-4.5 | 67.3 | 55.9 | 55.9 | 59.7 |
| Qwen3-VL-8B-Inst. | 61.6 | 41.0 | 37.7 | 46.8 |
| AURA (Ours) | 79.8 | 60.4 | 55.8 | 65.3 |
Table 3. OmniMMI 结果(accuracy %,PA = Proactive Alerting)
| Method | SG Avg | AP | MD Avg | SI | PA | All |
|---|---|---|---|---|---|---|
| GPT-4o | 15.0 | 39.5 | 12.3 | 17.0 | ✗ | 16.8 |
| Gemini-1.5-Pro | 16.3 | 43.0 | 12.0 | 38.5 | ✗ | 22.0 |
| MiniCPM-o-4.5 | 6.3 | 25.0 | 9.3 | 17.0 | ✗ | 11.5 |
| Qwen3-VL-8B-Inst. | 7.7 | 36.5 | 9.7 | 29.5 | ✗ | 16.7 |
| AURA (Ours) | 24.0 | 32.0 | 7.7 | 26.0 | 37.5 | 25.4 |
非 streaming 模型没有 PA 能力。AURA 在 SG(Dynamic State Grounding)和 PA 上有大幅领先;在 AP/MD/SI 上不一定第一,这些更偏 offline 推理能力。
6.3 Inference Performance
Figure 6. 推理性能消融——TTFT 与 computed-token 数量

- 关掉 prefix caching: TTFT 持续高位(每次都重算长 prefix)
- 关掉 sliding window: TTFT 随时间累积上升(context 越来越长)
- AURA: 两者并用 → TTFT 维持低位
Table 4. End-to-end 延迟分解(5 分钟连续 streaming)
| ASR | TTFT (server-side) | First-sent. decode | TTS first chunk | End-to-end |
|---|---|---|---|---|
| 84.2 ms | 75.0 ms (p50=74.6, p90=87.8) | ~60 ms | 93.0 ms | ~312.2 ms |
Decode 速度 7.3 ms/token (~137 tok/s),平均每条回答 12.6 tokens,TTS RTF=0.42。
总延迟 ~312ms 已经接近人类自然对话节奏(人类对话间隔约 200-500ms)。这是 always-on assistant 进入实用区间的关键阈值。
6.4 Offline Performance Preservation (RQ1)
Table 5. Offline benchmark 对比
| Method | LongVideoBench | MVBench | Video-MME |
|---|---|---|---|
| Qwen3-VL-8B-Inst. (base) | 61.9 | 69.0 | 68.6 |
| AURA (Ours) | 58.8 | 68.1 | 65.1 |
streaming 化代价:MVBench -0.9%, LongVideoBench -3.1%, Video-MME -3.5%。base 能力大体保留。
6.5 Loss Ablation (RQ2)
Table 6. Silent-Speech Balanced Loss ablation on OmniMMI
| Objective | SG | AP | MD | SI | PA | All |
|---|---|---|---|---|---|---|
| Default Cross-Entropy | 22.7 | 26.0 | 7.7 | 25.5 | 0.0 | 16.4 |
| Silent-Speech Balanced (Ours) | 24.0 | 32.0 | 7.7 | 26.0 | 37.5 | 25.4 |
PA 从 0% → 37.5% 是核心信号:default CE 导致模型 collapse 到永远 silent,无法触发 proactive 响应。整体平均 +9.0%。
关联工作
基于
- Qwen3-VL-8B-Instruct:base model,AURA 仅微调 LLM 部分。
- vLLM:推理 serving 框架,AURA 在其上实现 prefix caching 和 sliding-window attention。
对比(streaming VideoLLM)
- Dispider (qian2025dispider):decoupled trigger + responder 架构,AURA 用统一架构对比。
- MMDuet2 (wang2025mmduet2):用 multi-round RL + PAUC reward 做 proactive timing。
- MiniCPM-o-4.5 (minicpmo45):full-duplex 多模态,AURA 报告其 long-stream 时 collapse 到 silent。
- LiveCC (chen2025livecc):用 ASR transcript 做 streaming 训练监督。
- StreamVLN:streaming 在 navigation 场景的应用。
- VideoLLM-online (chen2024videollm):LIVE framework for streaming dialogue。
- StreamingVLM (xu2025streamingvlm):cache-based streaming inference + chunk-level SFT。
- ViSpeak / StreamAgent / Streamo-7B / M4:streaming benchmark baselines。
评测
- StreamingBench (lin2024streamingbench)
- OVO-Bench (niu2025ovo)
- OmniMMI (wang2025omnimmi)
- LongVideoBench / MVBench / Video-MME:offline 评测。
方法相关
- Sliding-window attention + prefix caching:streaming LLM serving 通用技术;AURA 的 floating-window 是工程级改进。
- Class-balancing loss:经典 imbalance 处理方法在 streaming silent token 场景下的应用。
论文点评
Strengths
- 问题 formulation 清晰:明确把 streaming 拆成 silent observation + Real-Time/Proactive/Multi-Response 三种响应模式,比”streaming = 实时字幕”的过去工作覆盖面广。
- Silent-Speech Balanced Loss 简单有效:单点改动让模型不再 collapse 到沉默,ablation 结果非常 sharp(PA 0% → 37.5%)。typical first-principles 解法——识别到 imbalance 用 inverse weighting 解决。
- 工程层面 prefix cache 优化扎实:floating-window 设计在不增加训练复杂度的前提下让 KV cache 大幅复用,把 streaming inference 推到 sub-second 延迟。
- 数据 pipeline 完整且 reproducible:五阶段 coarse-to-fine 流程描述详细,QA Refinement 里”5 个难度梯度均衡采样” 和 template rewriting 都是 actionable 的设计。
- 对 offline 能力的 trade-off 量化:明确报告 streaming 化对 offline benchmark 的代价(~3% drop),不是只 cherry-pick 优势 metric。
Weaknesses
- Base 模型升级带来的多少?:AURA 基于 Qwen3-VL-8B-Instruct(很新),主结果对比时 ViSpeak/StreamAgent/Streamo-7B 等 baseline 是更老的 base。10.4% 的 gain 里,多少来自 Qwen3-VL 本身、多少来自 AURA 设计,没法清晰拆开——缺少把 method 应用到老 base 的 cross-base ablation。
- 数据规模与质量不可复现:训练数据 115k streaming samples 来自”public internet sources”,没有具体来源、清单、filtering 阈值,第三方无法复现这个数据。
- Ablation 仅做了 loss 一项:dual sliding-window 的 选择、 的 prefix cache 影响、QA Refinement 的 difficulty balancing、quality verification 的 filter 严格度都没有 ablation——这些设计哪些 critical 哪些 cosmetic 不清楚。
- OmniMMI 上 AP/MD/SI 不领先:在需要复杂多轮推理的 metric 上 AURA 落后于 Gemini-1.5-Pro 不少(AP 32 vs 43, SI 26 vs 38.5)。streaming 优化可能确实在牺牲一些深度推理能力,作者没分析。
- “两个 80G accelerator at 2 FPS” 的硬件门槛仍较高:与”实用 always-on assistant”(手机/边缘设备)目标还有差距。fps=2 也比较低,快速运动场景可能漏帧。
- 没有失败案例分析:proactive QA 什么时候触发错?sliding-window 截断什么时候导致回答不一致?这些 streaming-specific failure mode 没有讨论。
可信评估
Artifact 可获取性
- 代码: inference-only(GitHub README 显示是 demo 部署代码:start_all.sh、ASR+VLM+TTS 三服务编排,需要 vLLM>=0.17.1、PyTorch 2.10+、Python 3.12、2+ GPU)。训练代码和数据 pipeline 代码未明确开源。
- 模型权重: AURA-8B 已发布(HuggingFace
aurateam/AURA),基于 Qwen3-VL-8B-Instruct 微调。 - 训练细节: 仅高层描述(4 nodes × 8 accelerators、1 epoch、bs=128、lr=1e-5、、chunk=1s),但训练数据的具体 source、filtering 阈值、QA Refinement 的 prompt template、quality verifier 的判定标准均未披露。
- 数据集: 私有(115k streaming + 59k offline 都是 in-house 构建,未发布)。
Claim 可验证性
- ✅ StreamingBench 73.1% / OVO-Bench 65.3% / OmniMMI 25.4% SOTA:模型权重已开源,使用官方 benchmark codebase 评测,第三方可独立复现。
- ✅ 端到端延迟 ~312ms, 2 FPS on 2×80G:GitHub demo 代码完整,硬件门槛明确,可直接验证。
- ✅ Silent-Speech Balanced Loss 对 PA 的影响(0% → 37.5%):ablation 设计干净(同数据、同初始化、仅替换 loss),结论强。
- ⚠️ “AURA 在 streaming 设计上的贡献”:未做 cross-base ablation,AURA 设计 vs Qwen3-VL 升级的贡献无法分离。
- ⚠️ “largely preserves offline understanding”:3 个 offline benchmark 上 -0.9% ~ -3.5%,只有 MVBench 算”largely preserved”,LongVideoBench/Video-MME 接近 5%(相对 base),程度有待商榷。
- ⚠️ “comparable to leading models on offline benchmarks”:Table 5 只对比了 base 模型自己,没有横向对比其他 8B 级 SOTA(如 InternVL3.5-8B),“comparable to leading” 缺乏直接证据。
- ❌ “strong foundation for future research on always-on visual assistants”:营销话术,不算技术 claim。
Notes
- AURA 的设计哲学很 first-principle:streaming 的本质是 silent vs speech 的二元决策 + 长 horizon context 管理 + 实时延迟约束。三个挑战分别用 unified
<|silent|>格式、dual sliding-window、floating-window prefix cache 解决。每个解法都很简洁。 - 想要的 ablation:把 Silent-Speech Balanced Loss + dual sliding-window 设计直接 plug 到 Qwen2.5-VL-7B / Internvl3-8B 等其他 base 上,看 delta 是否一致。如果 delta 在不同 base 上稳定,那 AURA 的贡献就 generalize;如果只在 Qwen3-VL 上有效,那核心可能在 base。
- 对 always-on agent 的启发:Proactive QA + Multi-Response QA 是 agent 主动观察的核心能力——单纯 trigger-on-query 的模型无法做出”帮我盯着烧水壶”这种响应。streaming 不只是延迟问题,更是 agentic capability 问题。
- 可能的延伸:把 AURA 的 streaming context management 思路应用到 robot manipulation 场景——always-on perception + 选择性 motor command 输出,silent token 对应”不动作”,这跟 VLA 的 “no-op” 决策是同构的。
- Qwen3-VL-8B-Instruct 升级带来多少:值得做一个对比实验——直接把 AURA 训练 pipeline 放到老 base 上验证。
Rating
Metrics (as of 2026-04-24): citation=0, influential=0 (0%), velocity=0.00/mo; HF upvotes=50; github 72⭐ / forks=2 / 90d commits=32 / pushed 1d ago
分数:2 - Frontier 理由:AURA 在 streaming VideoLLM 方向是当前 SOTA(StreamingBench/OVO-Bench/OmniMMI 全面领先开源 baseline),Silent-Speech Balanced Loss + floating-window prefix cache 的设计简单而 critical(PA 0%→37.5% 的 ablation 很 sharp),是 streaming 方向必须比较的 baseline;但如 Weaknesses 所列,10.4% gain 里 base model 升级与 method 设计无法拆分、数据 pipeline 不可复现、缺少关键 ablation,尚不具备 Foundation 档位所需的”定义方向、社区 de facto 标准”级别的影响力。