Paper Survey · 视觉信息不可替代性

来源:3-Paper_Survey/pre-survey/2026-06-11-vision-irreplaceability-thread/

支撑论文 thesis 的 ~44 篇参考表(“Beyond Textualization”):从 CLIP → Flamingo → … → RRVF / Visual-ERM,论证哪些视觉信息无法被文本替代。按“不可替代信息”重排为 7 类——这正是 verifier 必须依赖多模态证据的根本理由。

按“不可替代视觉信息”归类

不可替代信息代表论文说明
空间 / 几何 / 3DVSR · SpatialEval · SpatialVLM · SpatialRGPT · VoT · MVoT文本可描述局部关系,但多对象、多步、连续几何状态非常容易丢失
文档 layoutLayoutLM · DocVQA · Donut · Nougat · KOSMOS-2.5OCR 文本丢失坐标、层级、阅读顺序、样式
图表视觉编码PlotQA · ChartQA · ChartBench · ChartMimic数值、趋势、legend / color / axis 绑定来自视觉编码
GUI / action stateVisualWebArena · SeeAct · ScreenSpot-Pro · OSWorld当前屏幕、元素可见性、点击目标和交互状态依赖视觉
具身 affordanceSayCan · PaLM-E · VIMA · RT-2“应该做什么”必须受“当前世界能不能做”约束
渲染结果Design2Code · RRVF · ReLook · Visual-ERM代码 / 文档源文本不是最终视觉交付物;错误常在 render 后出现
中间视觉思维VoT · MVoT · Latent Sketchpad · GRIT · Visual Planning视觉可作为 reasoning trace / scratchpad / latent state

完整论文表(~44 篇,按类别)

类别论文年份/场景关键点
Foundation VLMCLIPICML 2021大规模 image-text 对齐学习可迁移视觉表征
Foundation VLMFlamingoNeurIPS 2022交错 image/video/text 的 few-shot VLM
Foundation VLMBLIP-2ICML 2023Q-Former 桥接 frozen image encoder 与 frozen LLM
Foundation VLMLLaVANeurIPS 2023用 GPT-4 生成多模态 instruction data
MSR foundationKOSMOS-1NeurIPS 2023perception 不是语言的附属品;含 Raven IQ 非语言推理
MSR foundationKOSMOS-2.5arXiv 2023生成 spatially-aware text blocks 与 markdown structure
MSR agentTaskMatrix.AI2024foundation model 连接 API/tool 完成数字和物理任务
MSRVisualization-of-Thought (VoT)NeurIPS 2024可视化中间空间状态,提升 grid navigation / tiling
MSRMVoTICML 2025MLLM 生成 text-image interleaved reasoning traces
MSR11Plus-BencharXiv 2025认知启发的空间能力题评估 MLLM
MSRLatent SketchpadarXiv 2025visual latents 作内部 sketchpad,可解码成草图
Think w/ imageThinking with Images (Survey)2025external tools → programmatic manipulation → intrinsic imagination
Think w/ imageImage-of-ThoughtarXiv 2024step-by-step 提取 visual rationales
Think w/ imageGRITarXiv 2025reasoning chains 交错文本和 bbox,用 RL 训练 grounded reasoning
Think w/ imageVisual PlanningarXiv 2025用 image sequences 做 planning,减少文本中介
SpatialVisual Spatial Reasoning (VSR)TACL 202310k+ pairs,66 类 spatial relations
SpatialSpatialEvalNeurIPS 2024“加图” 不等于 “使用视觉”;VLM 不一定优于 LLM
SpatialSpatialVLMCVPR 2024大规模 3D spatial VQA,改善定量 / 定性 spatial reasoning
SpatialSpatialRGPTNeurIPS 2024region-level 3D spatial reasoning;depth plugin
SpatialScaling and Beyond (Position)2025呼吁 multimodal reasoning traces 和 spatial agentic workflows
DocumentLayoutLMKDD 2020joint text + layout + image pretraining
DocumentDocVQAWACV 2021仅 OCR 文本不足以回答文档问题
DocumentDonutECCV 2022OCR-free document understanding
DocumentNougatarXiv 2023scientific PDF image → markup;公式 / 表格损失
ChartPlotQAWACV 2020真实 plot 大量 OOV / real-valued answers
ChartChartQAACL Findings 2022chart visual + logical reasoning
ChartChartBencharXiv 2023从 legend / color / coordinate 推导数据可靠性
Chart/codeChartMimicICLR 2025chart image + instruction → rendering code
Multi-disciplineMathVistaICLR 2024visual contexts 中数学推理
Multi-disciplineMMMUCVPR 202430 种 image types 的 college-level 多模态题
Multi-disciplineMMMU-ProACL 2025过滤 text-only 可答题,加入 vision-only setting
Math visionMATH-VisionNeurIPS 2024真实竞赛数学视觉题,仍有明显人机差距
GUI agentVisualWebArenaACL 2024910 真实 visually grounded web tasks
GUI agentSeeActICML 2024GPT-4V 网页 agent;grounding 是瓶颈
GUI groundingScreenSpot-ProarXiv 2025高分辨率专业 GUI grounding,最好仅 18.9%
Computer useOSWorldNeurIPS 2024真实 OS/app 任务;human 72.36% vs best model 12.24%
RoboticsSayCanCoRL 2022LLM semantic plan + affordance value
RoboticsPaLM-EICML 2023embodied multimodal LM,接入视觉和连续状态
RoboticsVIMAICML 2023robot manipulation 表示为 multimodal prompts
RoboticsRT-2CoRL 2023vision-language-action;web knowledge → robot control
Artifact/codeDesign2CodeNAACL 2025webpage screenshot → code;layout / visual recall 是短板
Artifact/RLRRVFarXiv 2025reasoning-rendering-visual-feedback;only raw images
Artifact/RLReLookarXiv 2025web code generate-diagnose-refine;MLLM critic
Artifact/rewardVisual-ERMarXiv 2026visual equivalence reward model,细粒度 discrepancy feedback