Minimal Multimodal Verification Loop
initialized workstream 1目标
0-Project/20260622-minimal-multimodal-verification-loop/
搭一个最小可运行的 multimodal verification loop,用来观察 coding agent 在加入 verification 前后,任务结果是否发生可见变化。目标不是立刻做完整系统,也不是训练 verifier,而是先把闭环跑起来。
Taskinstruction + 可选 reference
→
Generate生成代码
→
Render执行 + 截图
→
Verify多模态检查
→
Feedback结构化反馈
→
Revise + Compare对比 before/after
要回答的问题
multimodal verification 能否发现初始代码产物中的明显问题?
verifier feedback 是否足够具体,能否指导下一轮 revision?
verification 之后的产物是否更接近用户需求?
哪些错误适合被视觉/多模态验证发现,哪些仍很难?
frontier MLLM verifier、V-DIFF、OCR、DOM/CSS 检查各覆盖哪些错误?
加入 verification 后成本、轮数、稳定性如何变化?
首批任务候选
| Candidate | 为什么适合 | 优先级 |
|---|---|---|
| screenshot / image → HTML | 有 reference image,视觉差异最直观 | P0 |
| chart image → code | chart renderer 明确,适合检查 axis、legend、trend、style | P0 |
| prompt → UI page | 无 reference,但能测 instruction following 和 layout verification | P1 |
| existing HTML/CSS visual repair | 观察 verifier feedback 是否能定位遮挡、溢出、错位 | P1 |
Verifier I/O & 成功标准
最小 verifier 输出(尽早结构化)
pass: yes / no / uncertain score: 0-5 failed_checks: - issue - evidence - suggested_fix uncertainty: revision_priority:
第一阶段成功标准
- 跑通 5–20 个 smoke tasks
- 每个保存 initial / feedback / revised + 人工判断
- 看到至少几类典型 failure:missing element、wrong layout、text error、style mismatch、chart semantic、readability
- 形成初步 failure taxonomy(发现 / 漏掉 / 误报)
- 明确是否值得扩展到更多 benchmark 或更专门 verifier
下一步
定义 5–20 个 smoke tasks → 确定第一版 generator / renderer / verifier backend → 写最小 verifier I/O schema → 跑一轮 no-verification vs with-verification 对比 → 失败案例同步回 scope 文档或新的 failure taxonomy。