Do Vision-Language Models Truly Perform Vision Reasoning? A Rigorous Study of the Modality Gap

Summary

Do VLMs Truly Perform Vision Reasoning? A Rigorous Study of the Modality Gap

核心: 构造 text-only / image-only / image+text 三种信息等价的同一道数学 crossword puzzle，用此对照 SOTA VLM，发现模型在 text-only 远好于 image-only，加入 image 反而拖累 text-only baseline —— 当前 VLM 的”视觉推理”主要跑在 text backbone 上。

方法: 构建 CrossMath（5000 训 / 250 测），自动管线爬取 crossword-math 在线生成器，图像→Markdown 表（像素颜色区分单元格角色 + Qwen3-VL-Max 批量 OCR），符号求解器产出带 hop 标注的 CoT；用 LoRA SFT + GRPO（position-weighted reward）在 image-only 上 post-train Qwen3.5-9B。

结果: Qwen3.5-Plus 在 Macro Acc 上 text 92.8% vs image 12.4% vs multimodal 74.8%；SFT+GRPO 把 Qwen3.5-9B 的 image Macro 从 3.20 拉到 50.40，但与同模型 text 76.40 仍差一截；MathVerse +2.46 / MMMU +1.39。

Sources: paper | github

Rating: 2 - Frontier（信息等价三模态 benchmark 设计干净且有反直觉 finding——image+text < text-only——但仅测 Qwen 家族、任务是 structured grid 而非真正自然视觉推理，未到 de facto 标准）

Key Takeaways:

Rigorous cross-modal equivalence: 每道题同时有 image / text / image+text 三种等价形式（人工校对 250 题），是相对前人 MathVerse/EMMA 等 “信息不对称” benchmark 的关键改进。
Modality gap 远超预期: 不只是 image < text，更反直觉的是 image+text < text——即使 text 已经给了完整解题信息，VLM 还是会被视觉 token 拖下水。
Bottleneck 不是 perception: OCR 可被 VLM 高精度完成；Accuracy 随 hop 数急剧衰减而非随图像复杂度衰减，定位为”把视觉 symbol 组织进 reasoning chain”的失败。
Image-only post-training 可修复但无法闭合 gap: SFT+GRPO 在 image-only 上暴涨 +47 pt Macro，text-only 也同时受益（44→76.4），但 image vs text 仍差 ~26 pt，作者归因为 visual encoder / cross-modal alignment 的底层架构瓶颈。
Scale 不救 image-only: 27B 到 397B-A17B 在 image-only 下 Macro Acc 在 12-16 间盘整无单调提升；text-only 则呈正常 scaling —— 证据指向 vision module 而非 language backbone 容量。

Teaser. CrossMath 的三模态等价示例（image / markdown table / image+text）

1. Motivation：为什么现有 benchmark 测不出 “genuine visual reasoning”

作者指出两类失效：

Surface-level / text-prior 泄漏型（如经典 VQA）：只需粗粒度视觉识别 + 文本先验即可答对，无法逼模型做 multi-step spatial / geometric 推理。
Modality-entangled 型（MMMU / MathVerse / EMMA 等）：问题本身同时需要图和文，抽掉任一模态题目不成立——因此跨模态性能差异混淆了”信息缺失”和”模态特定推理能力”两个变量。

为了 cleanly 分离后者，作者提出三条评测原则：

(i) Vision-first：任务本身就得靠空间/几何推理解。
(ii) Difficulty-stratified：避免 saturation / floor effect。
(iii) Strictly equivalent 的多模态版本：三种输入任务相关信息完全一致，且都独立可解。

这第三条是本文的核心主张，也是和过往 modality-gap 类论文（如 [^10] VISTA-Bench visualized-text）的关键区别：不仅等价，还要每种单模态都 self-sufficient。

2. CrossMath：Benchmark 构造

2.1 任务定义

2D 网格上纵横交错的算术方程，部分单元格缺失（标 ?），要求同时满足所有横/竖方向方程，输出缺失值（按 top-to-bottom, left-to-right 顺序）。

VLM 解题流程形式化为两阶段：

\hat{S}_{j} = [\overset{s}{^}_{1, j}, \overset{s}{^}_{2, j}, \dots, \overset{s}{^}_{∣ \hat{S}_{j} ∣}], \overset{s}{^}_{i, j} = VLM (I, Q_{j}, \overset{s}{^}_{< i, j})

每个 step 包含 rationale tokens + 该步 answer span，最后按序拼成 $\hat{A}_{j}$ 。

2.2 Data Curation 管线（4 步）

Raw Collection：用 Playwright 从某在线 arithmetic puzzle 生成器抓取，系统性变化难度（Easy/Medium/Hard）、运算符组合（{+,-,×,÷}）、数值范围（50–250）、方程数量（5–15）。每题同时截”未解”+“带解”两图，并解析 HTML 拿到 ground-truth。
Image → Markdown：利用 像素颜色辨认单元格角色（blue = 固定常数、white + red 字 = 未知变量、yellow = 运算符），把单元格切碎拼成带 index 的 mosaic，再让 Qwen3-VL-Max 批量 OCR，配合正则修正 1/l/| 类 OCR 歧义，最终人工 audit 250 测试样全部校对。这一步保证了三模态信息严格对称。
Reasoning Path Extraction：符号求解器基于 known-cells 集合做迭代推演——每轮找”三元里已知两元”的方程标 solvable，同一轮内求解的所有方程共同构成一个 reasoning step，推出的单元直到下一轮才并入 known-cells（保证严格因果顺序）。这给每题产出带hop 数的 gold CoT。
Visual Style Augmentation：4 个 style —— Original / Border-Removal / Background-Complexity / Font+Palette Variation —— 用于探模型是否仅在 exploit 特定渲染。

2.3 Benchmark 统计

Table 1. CrossMath 测试集按难度与 hop 分布（N=250）

Difficulty	# Examples / %	Avg. Problems	1 Hop	2 Hops	3 Hops	4+ Hops
Easy	90 / 36.0%	10.46	10.46	0.00	0.00	0.00
Medium	85 / 34.0%	9.81	7.66	1.53	0.53	0.09
Hard	75 / 30.0%	10.64	5.13	2.52	1.73	1.25
Total	250	10.29	7.91	1.28	0.70	0.41

❓ Hop 分布严重向 1-hop 倾斜（总体 77% 是 1-hop，4+ hop 只占 4%）。这会让 hop-scaling 曲线的尾段样本量偏低，某些数值（如 Qwen3.5-Plus 4+hop 8.82%）的置信度值得打折。

3. Post-Training：能否靠训练补齐

3.1 Data

5000 张 puzzle 图 + 解；每张原图与其背景增强版配对（增强 visual robustness）。训测严格 disjoint。

3.2 SFT（cold start）

用 Qwen3-VL-Max 把 symbolic step 转成自然语言 CoT（给 text-only + Markdown table prompt），即使偶有错答也全部保留做 behavioral cold-start。
Qwen3.5-9B + LoRA r=16，lr=2e-5，2 epoch，cosine schedule + warmup 0.03，max len 5000，grad accum 8。
平均 CoT 长约 5200 token（已强调 concise）。

3.3 RLVR with GRPO

SFT 初始化后用 GRPO，每 instance 采 4 rollouts，LoRA r=16，lr=1e-6，200 steps，max completion 6000。

核心改动：position-weighted reward——给 hop 数更深的子问题更大权重，避免规则 reward 对中间结果的脆弱抽取：

r_{j} = \frac{\sum _{i = 1}^{∣ S_{j} ∣} w _{i} \cdot I [ a ^ _{i, j} = a _{i, j} ]}{\sum _{i = 1}^{∣ S_{j} ∣} w _{i}}

$w_{i}$ 随逻辑深度递增。

4. Main Results

4.1 三模态对比（Table 2）

Model	Img-Only Micro/Macro	Img+Text Micro/Macro	Text-Only Micro/Macro
Qwen3.6-Plus	32.23 / 11.60	90.76 / 79.60	96.23 / 88.20
Qwen3.5-Plus	35.65 / 12.40	85.22 / 74.80	97.27 / 92.80
Qwen3.5-397B-A17B	39.26 / 16.00	87.54 / 78.40	96.86 / 92.00
Qwen3.5-122B-A10B	36.85 / 12.80	81.37 / 61.20	89.61 / 77.60
Qwen3.5-27B	40.74 / 12.40	87.04 / 66.40	88.67 / 75.20
Qwen3.5-9B	23.25 / 3.20	61.56 / 29.60	73.39 / 44.00
Qwen3.5-9B-SFT	59.52 / 48.50	67.90 / 60.00	82.58 / 69.60
Qwen3.5-9B-SFT+GRPO	62.33 / 50.40	71.21 / 62.80	87.36 / 76.40

4.2 三条核心发现

(1) Image vs Text 存在巨大 gap：信息对称的前提下，Qwen3.5-Plus Macro 从 92.8 % 掉到 12.4 %（−80 pt）。更反常的是 image+text 几乎总是低于 text-only——当 text 已给全信息，视觉输入非但不加分，还注入”ambiguous or poorly grounded features”干扰内部逻辑。

(2) 失败不来自 perception：理由三条，都相对扎实：

让 VLM 把 puzzle 图转成 Markdown 的 OCR 错误率极低；
若是 perception 瓶颈，reasoning-chain supervision 应无效——但 SFT/GRPO 大幅改善 image-only 成绩；
若是 perception 瓶颈，准确率应与 hop 数独立——但实测 accuracy 随 hop 数剧烈塌陷。

(3) Reasoning depth 才是核心瓶颈：Macro vs Micro 的巨大 gap 说明模型能拼对局部但守不住全局一致性。Table 3 的 hop 分解验证：所有模型随 hop 数单调衰减，Qwen3.5-27B image-only 从 1-hop 42.26% 崩到 4+hop 5.88%。

4.3 Post-training 效果（Table 3）

Model	Micro	Macro	1 Hop	2 Hops	3 Hops	4+ Hops
Qwen3.5-9B (zero-shot)	23.25	3.20	26.27	3.37	2.32	1.96
Qwen3.5-9B-SFT	59.52	48.50	57.92	53.96	52.18	40.93
Qwen3.5-9B-SFT+GRPO	62.33	50.40	61.02	58.42	56.98	41.18

SFT 把 Macro 从 3.20 拉到 48.50（+45.3），GRPO 再加 +1.9，主要收益来自 multi-hop。
但和同模型 text-only（87.36 / 76.40）比，image-only 仍差约 25 pt——作者得到一个相当尖锐的结论：仅对齐 visual embedding 到 text space 不够，要闭合 gap 需要更强的 vision foundation，让模型从 pixel-level recognition 升级到”内化物理/结构约束”。

5. 辅助实验

5.1 Style Robustness（Table 4）

Post-trained 模型对 font/color/background 扰动基本不掉点（原 style 50.40 → 换色/背景 50.10 左右，字体+色 48.40）。唯独去掉边框掉 4-6 pt——暗示 grid border 给了重要的单元格分割结构信号，模型”理解 2D 结构”的能力比”抗色干扰”弱。

❓ 这其实是一个值得深挖的 finding：去掉 border 精度掉 5 pt 并不”小”，它说明模型依赖显式视觉 delimiter 来切分 reasoning unit。如果换到自然图像里，根本没有这种清晰 border——暗示这里的”visual reasoning”依然在”精心设计的 structured visual”的舒适区。

5.2 OOD Generalization（Table 5）

Model	MathVerse (Vision-Only)	MMMU
Qwen3.5-9B	48.94	67.52
Qwen3.5-9B-SFT	50.76	68.05
Qwen3.5-9B-SFT+GRPO	51.40	68.91

CrossMath 训练 transfer 到两个通用多模态数学 benchmark 都是小正收益（MathVerse +2.46, MMMU +1.39）——作者 admit 这不等于通用 transferability，仅是”structured multi-step math”范围内的 cross-task synergy。

5.3 VLM 规模 vs 模态（5.7 节）

Image-only 不随 scale 单调提升：27B 到 397B-A17B Macro 在 12-16 盘整。
Text-only scaling 正常：Plus / 397B-A17B 明显优于 27B / 9B。
解读：语言 backbone 再大也救不了视觉通路；vision module 能力 / cross-modal grounding 才是真瓶颈。这是对”做大 LLM 即可”观点相当直接的反例。

6. 我的批判性解读

做对的

控制变量设计是本文最硬的贡献：三模态信息等价 + 全部人工校 250 道，比 MathVerse / EMMA 这类 entangled benchmark 干净。
把 OCR 失败 / reasoning 失败 disentangle 的三条论证都不仅仅靠一个数字，而是从 “OCR 本身准确” + “supervision 有用” + “hop-scaling 行为” 三路交叉验证，结构比典型”一张图一个结论”类 critique 论文强。
position-weighted reward是个简单但合理的 trick，避开了从 free-form CoT 里抽中间答案的脆弱性。

存疑 / 没做够的

“Vision-first”真的 vision-first 吗？ CrossMath 本质是 2D 排版的符号算术，视觉部分只是一个 color-coded grid——这更像”structured visual symbol parsing”而非真正的几何 / 物理视觉推理。去掉 border 掉 5 pt 的实验恰恰说明模型的 “visual reasoning” 依赖显式 delimiter。移到自然场景（图表、几何图、物理 diagram）结论能否保持？未验证。
只做了 Qwen 系列。所有 main table 全是 Qwen3.5 / 3.6 家族，连 GPT-4o、Gemini、Claude、InternVL、LLaVA 一个都没有。“current VLMs” 这种大词用在只测了一家的实验上，claim 的外推性被自家 vision module 的设计高度 bias。
Image+Text < Text-only 这个 headline finding 的 intervention 不够：作者把它解释成”visual token 注入噪声”，但没做 attention/attribution 分析证明模型确实”看”了 visual token。可能的 confound：multimodal prompt 的 system prefix 触发了不同的 behavior mode（如 multimodal 下模型更”话痨”更容易跑题）、或 image token 消耗 context 导致 text 部分 attention 分配改变。缺少 causal probe。
Hop 分布极度不平衡：4+hop 只占 4%（Easy 档完全没有多 hop）。“accuracy 随 hop 衰减”的曲线尾部是样本量 ~10 的点，数字波动大。
OOD 增益过小 (+1.4 到 +2.5)。虽然作者诚实 disclaim 不 claim 普适 transfer，但如果 CrossMath 真揭示了”modality gap 的本质”，针对性训练在同族 math-vision benchmark 上应有更明显的迁移。
Post-training 只用 image-only 数据，那 text-only 也跟着涨（44 → 76.4）怎么解释？论文没分析。一个合理猜测：CoT trajectories 由 text 端生成，模型主要学到的是 CoT 格式和算术模式，而非”看图推理”。这会弱化”我们修复了 modality gap” 的 claim。
“更强的 visual foundation 才能闭合 gap” 是结论性断言，但论文本身没提供任何 intervention 证据——它是 narrative 而非被验证的 hypothesis。

和过往工作的关系

与 [^10] VISTA-Bench（visualized text vs pure text）共享思路，但 VISTA 关注”同一段 text 被 render 成图后变难”，CrossMath 关注的是”vision-first 任务在三模态下的对称比较”，定位不同。
与 PuzzleVQA、Bongard 系列的抽象视觉推理一脉相承，优势在 cross-modal equivalence；劣势在视觉形式仍然是合成的 structured grid，不是自然图。
针对 MMMU / MathVerse / EMMA 的”entangled”批评扎实——但严格说，它们的设计目标是 end-to-end 多模态能力，和 CrossMath 要做的 modality-specific disentanglement 是不同的 goal，不完全是替代关系。

关联工作

基于

GRPO ([^3] DeepSeek-R1)：作为 RLVR 框架，作者替换了 reward 为 position-weighted variant。
LoRA ([^6])：参数高效 fine-tuning。

对比 / 批判对象

MMMU / MathVerse / EMMA / MMReason：作者主要的 “entangled multimodal benchmark” 批评对象。CrossMath 以 strict equivalence 区别于它们。
PuzzleVQA ([^2])、Jigsaw-Puzzles ([^13])：抽象/空间视觉推理的 benchmark 家族。

方法相关

VISTA-Bench ([^10])：visualized text 类论文，共享”rendering to image 会让任务变难”的观察，但 formulation 不同。
Bring Reason to Vision ([^1])、Compositional Ability Gap in VLR ([^8])：mechanistic 视角的 perception-reasoning coupling 分析。

论文点评

Strengths

三模态信息等价的 benchmark 设计扎实，且人工校 250 道保证了 strict equivalence，这是 claim “rigorous” 的前提。
“Image+Text < Text-only” 这个 finding 很反直觉且可复现（至少在 Qwen 族内），有 headline 价值。
三路证据排除 perception bottleneck（OCR 准确 + SFT 有效 + hop-scaling）比单论据 critique 类论文严谨。
Difficulty + Style + Hop 三维分解让 failure mode 可被定位到 reasoning depth，而非笼统”VLM 不行”。
Position-weighted GRPO reward 简洁可推广，避免了抽 intermediate answer 的 regex 脆弱性。

Weaknesses

只测 Qwen 家族是硬伤，“state-of-the-art VLMs” 的 claim 没有 GPT-4o / Gemini / Claude / InternVL 等背书。
任务形式是 structured symbolic grid，离真正的自然视觉推理（几何图、物理 diagram、图表）有距离；去 border 掉 5 pt 已暴露模型依赖显式 delimiter。
没有 causal probe / attention 分析证明 image+text 下模型”确实看了图”，“visual distractor” 的解释停留在 narrative。
Post-training image-only 让 text-only 也涨 的现象没给解释，削弱”闭合 modality gap”的 claim——更可能是学到了 CoT 格式。
Hop 分布极偏（1-hop 77%，4+hop 4%），尾部数字的置信区间没给。
OOD transfer 增益小（+1.4 / +2.5），和”真正修复 visual reasoning” 的叙事不太配。

可信评估

Artifact 可获取性

代码: GitHub xuyige/CrossMath 声明开源（截至写稿未访问）。
模型权重: 未提及是否发布 SFT / GRPO checkpoint。
训练细节: 超参（LoRA rank、lr、epoch、max len、batch、GRPO rollouts/steps）基本完整，但未给随机种子、数据预处理完整配置。
数据集: CrossMath 自构，声明开源 5000 train + 250 eval，4 种 style augment 总计 1000 image 测试样本。

Claim 可验证性

✅ Image vs Text Macro Acc gap（92.8 → 12.4）：Table 2 数据点完整、跨 6 个 Qwen 变体一致。
✅ Hop-scaling 单调衰减：Table 3 直接展示。
⚠️ “Image+Text < Text-only 是因为视觉输入干扰”：现象可复现，但归因没 attention/attribution 证据，可能被 context-length / prompt-format confound。
⚠️ “Perception 不是瓶颈”：三路论证总体有说服力，但”OCR 可被准确完成”是同一模型在被 explicit 指令 OCR 时的表现，不等于在 reasoning flow 里模型隐式地把 symbol 读对了——这是两个任务。
⚠️ “Current VLMs 普遍依赖 textual shortcut”：只测 Qwen 家族，外推到 “current VLMs” 过宽。
❌ “闭合 gap 需要更强的 visual foundation”：narrative 结论，论文本身没做 intervention。

Notes

🔖 最值得记住的一个数字：Qwen3.5-Plus text 92.8 → image 12.4 → multimodal 74.8。即使信息完全给在 text 里，加图也要掉 18 pt。
🔖 Image-only post-training 让 text-only 也涨 是个被论文低估的反直觉信号；值得单独做 ablation 验证”学到的到底是 visual grounding 还是 CoT 格式”。
🔖 本文的范式若要 generalize 到 agent / embodied 场景，关键在于：自然场景的 visual reasoning 没有显式 delimiter（border），模型对 border 的依赖暗示当前 VLM 对”自发切分视觉 reasoning unit”的能力远不如作者语气所 imply 的那样”只差架构升级”。
🔖 Follow-up：我的 VLA / spatial reasoning 方向里，“text hint 中掺入 visual token 是否反而干扰”这个现象值得在 RT-2 / OpenVLA / π0 这类 VLA 上自己复现一把——理论上 action policy 不像 math CoT 那样有 text shortcut，现象应该不同。

Rating

Metrics (as of 2026-04-24): citation=0, influential=0 (0%), velocity=0.00/mo; HF upvotes=N/A; github 2⭐ / forks=0 / 90d commits=4 / pushed 3d ago

分数：2 - Frontier 理由：Benchmark 设计（三模态信息等价 + 人工校对 250 道）和反直觉 finding（image+text < text-only）在当前 VLM reasoning critique 类工作里属前沿参考，position-weighted GRPO reward 也算一个可复用的小贡献；但如 Weaknesses 所列，只测 Qwen 家族、任务形式仍是 structured symbolic grid、post-train 让 text-only 也涨的现象未被解释——还不到”方向必读”的 Foundation 档，也未见社区把 CrossMath 采纳为标准 benchmark；同时又明显高于 Archived（一次性 incremental），是典型的 Frontier 参考。

MindFlow

Explorer