Multimodal Verification for Agentic Coding Loop

一篇 position / vision paper:论证 agentic coding loop 需要一个显式的 multimodal verification 环节,用来检查代码产物在渲染、截图、布局、空间关系和用户意图层面是否真的正确。Image-to-code 是最自然的实验载体与代表性实例,而非全部 scope。

Position / Vision Paper + Small Experiments candidate-conditioned · evidence-grounded
Statusactive
Owner我 / Codex
Recent Sync2026-06-23 task-family map
Current FocusP0 场景族 case cards + 最小验证闭环

这是什么

很多 coding-agent 任务的成功标准并不只存在于代码文本、编译结果或单元测试里,而是存在于最终可见的多模态产物里:页面是否和目标截图一致、UI 组件是否在正确位置、chart 是否表达了正确的数据关系、文字是否被遮挡或截断、prompt 里的视觉要求是否真的出现在渲染结果里。本项目把 multimodal verification 抬升为 agentic coding loop 中独立且必要的环节,并用最小实验观察它是否值得继续研究。

本看板按左侧目录分页组织。下面是各板块的入口——内容都直接放在各自页面里,便于阅读。

目录 / 快速进入

总览

尝试 / Subprojects

数据 & Paper Survey