Minimal Multimodal Verification Loop

initialized workstream 1

目标

0-Project/20260622-minimal-multimodal-verification-loop/

搭一个最小可运行的 multimodal verification loop，用来观察 coding agent 在加入 verification 前后，任务结果是否发生可见变化。目标不是立刻做完整系统，也不是训练 verifier，而是先把闭环跑起来。

Taskinstruction + 可选 reference

→

Generate生成代码

→

Render执行 + 截图

→

Verify多模态检查

→

Feedback结构化反馈

→

Revise + Compare对比 before/after

要回答的问题

multimodal verification 能否发现初始代码产物中的明显问题？

verifier feedback 是否足够具体，能否指导下一轮 revision？

verification 之后的产物是否更接近用户需求？

哪些错误适合被视觉/多模态验证发现，哪些仍很难？

frontier MLLM verifier、V-DIFF、OCR、DOM/CSS 检查各覆盖哪些错误？

加入 verification 后成本、轮数、稳定性如何变化？

首批任务候选

Candidate	为什么适合	优先级
screenshot / image → HTML	有 reference image，视觉差异最直观	P0
chart image → code	chart renderer 明确，适合检查 axis、legend、trend、style	P0
prompt → UI page	无 reference，但能测 instruction following 和 layout verification	P1
existing HTML/CSS visual repair	观察 verifier feedback 是否能定位遮挡、溢出、错位	P1

Verifier I/O & 成功标准

最小 verifier 输出（尽早结构化）

pass: yes / no / uncertain score: 0-5 failed_checks: - issue - evidence - suggested_fix uncertainty: revision_priority:

第一阶段成功标准

跑通 5–20 个 smoke tasks
每个保存 initial / feedback / revised + 人工判断
看到至少几类典型 failure：missing element、wrong layout、text error、style mismatch、chart semantic、readability
形成初步 failure taxonomy（发现 / 漏掉 / 误报）
明确是否值得扩展到更多 benchmark 或更专门 verifier

下一步

定义 5–20 个 smoke tasks → 确定第一版 generator / renderer / verifier backend → 写最小 verifier I/O schema → 跑一轮 no-verification vs with-verification 对比 → 失败案例同步回 scope 文档或新的 failure taxonomy。

README ← 核心主张与 Loop 验证场景族