Minimal Multimodal Verification Loop

initialized  workstream 1

目标

0-Project/20260622-minimal-multimodal-verification-loop/

搭一个最小可运行的 multimodal verification loop,用来观察 coding agent 在加入 verification 前后,任务结果是否发生可见变化。目标不是立刻做完整系统,也不是训练 verifier,而是先把闭环跑起来。

Taskinstruction + 可选 reference
Generate生成代码
Render执行 + 截图
Verify多模态检查
Feedback结构化反馈
Revise + Compare对比 before/after

要回答的问题

multimodal verification 能否发现初始代码产物中的明显问题?

verifier feedback 是否足够具体,能否指导下一轮 revision?

verification 之后的产物是否更接近用户需求?

哪些错误适合被视觉/多模态验证发现,哪些仍很难?

frontier MLLM verifier、V-DIFF、OCR、DOM/CSS 检查各覆盖哪些错误?

加入 verification 后成本、轮数、稳定性如何变化?

首批任务候选

Candidate为什么适合优先级
screenshot / image → HTML有 reference image,视觉差异最直观P0
chart image → codechart renderer 明确,适合检查 axis、legend、trend、styleP0
prompt → UI page无 reference,但能测 instruction following 和 layout verificationP1
existing HTML/CSS visual repair观察 verifier feedback 是否能定位遮挡、溢出、错位P1

Verifier I/O & 成功标准

最小 verifier 输出(尽早结构化)

pass: yes / no / uncertain score: 0-5 failed_checks: - issue - evidence - suggested_fix uncertainty: revision_priority:

第一阶段成功标准
  • 跑通 5–20 个 smoke tasks
  • 每个保存 initial / feedback / revised + 人工判断
  • 看到至少几类典型 failure:missing element、wrong layout、text error、style mismatch、chart semantic、readability
  • 形成初步 failure taxonomy(发现 / 漏掉 / 误报)
  • 明确是否值得扩展到更多 benchmark 或更专门 verifier

下一步

定义 5–20 个 smoke tasks → 确定第一版 generator / renderer / verifier backend → 写最小 verifier I/O schema → 跑一轮 no-verification vs with-verification 对比 → 失败案例同步回 scope 文档或新的 failure taxonomy。