Multimodal Verification for Agentic Coding Loop
一篇 position / vision paper:论证 agentic coding loop 需要一个显式的 multimodal verification 环节,用来检查代码产物在渲染、截图、布局、空间关系和用户意图层面是否真的正确。Image-to-code 是最自然的实验载体与代表性实例,而非全部 scope。
这是什么
很多 coding-agent 任务的成功标准并不只存在于代码文本、编译结果或单元测试里,而是存在于最终可见的多模态产物里:页面是否和目标截图一致、UI 组件是否在正确位置、chart 是否表达了正确的数据关系、文字是否被遮挡或截断、prompt 里的视觉要求是否真的出现在渲染结果里。本项目把 multimodal verification 抬升为 agentic coding loop 中独立且必要的环节,并用最小实验观察它是否值得继续研究。
本看板按左侧目录分页组织。下面是各板块的入口——内容都直接放在各自页面里,便于阅读。
目录 / 快速进入
总览
core claim、显式 verification loop、verifier 设计原则、4 种实现选项。
验证场景族 →7 个 task families(P0–P2)与首版 P0 package、case-card 设计。
尝试 / Subprojects
5 个 subproject 的状态、定位与演进路线一览。
Minimal Verification Loop initialized搭最小验证闭环,观察 verification 前后产物变化。
Benchmark Map initialized整理验证覆盖的任务与 benchmark,收敛 7 个场景族。
Image2Code Data Collection active30+ image2code 数据源 inventory + 两个交互式 dashboard。
RRVF Reproduction archivedRRVF 视觉反馈 RL 复现,L0–L2 完成;方法参考。
Pre-Self-Think Notes notes最早 scope 草稿与任务 taxonomy,场景族原始素材。