Multimodal Verification Benchmark Map

initialized  workstream 2

目标

0-Project/20260622-multimodal-verification-benchmark-map/

整理 multimodal verification for agentic coding loop 可能覆盖的任务和 benchmark,回答:如果验证是比 image-to-code 更大的问题,它具体覆盖哪些 code-related tasks?现有 benchmark 能否支持我们观察这个问题?这个 subproject 不只是 paper survey,也不只是 dataset list,而应形成一个 task / benchmark map。已收敛出 7 个场景族与 P0/P1/P2 优先级。

两个必须守住的边界
  • 任务必须和 code generation / revision / rendered artifact 有关系
  • VQA、OCR、pixel diff、spatial reasoning 更适合作为 verifier capability,而非把主线改成通用视觉理解
收敛结论
  • 7 个场景族(见验证场景族
  • P0:族 1–4;P1/P2:族 5–7
  • “已有数据可改造” vs “需自建” 两类来源
  • 首版做 8–12 张 case card,而非大 benchmark

候选任务族(初版整理)

Family示例任务验证目标初始角色
Reference-based replicationscreenshot-to-HTML, chart image-to-code, formula image-to-LaTeXrendered output 是否接近 referencecore
Prompt-to-visual-code artifactprompt-to-UI, text-to-dashboard, data-to-chart, prompt-to-SVGinstruction following、layout、readability、语义正确core / near-core
Visual repair / debuggingHTML/CSS repair, chart refinement, layout overflow fixing根据 screenshot 找到并修复视觉问题core
VQA-style verifier checksscreenshot + question about generated artifact把需求拆成局部可判定问题verifier capability
OCR / text fidelityUI labels, chart labels, table fields, report text文字是否正确、完整、可见verifier capability
Spatial / layoutleft/right, alignment, grouping, overlap, responsive空间关系与区域结构是否满足需求verifier capability
Interaction / statehover, modal, responsive breakpoint, animation frame多状态、多帧、多截图是否正确extension

Benchmark 字段(每个任务后续记录)

Task / benchmark · Source · Input modality · Output artifact · Code-relatedness · Reference availability · Current evaluation · Verification target · Multimodal gap · Renderer feasibility · Prototype suitability · Notes / risks。

子项目文档

文件用途
Docs/20260623-task-family-map-synthesis.md收敛当前讨论:candidate-conditioned 定义、场景族、P0/P1/P2、已有数据与需自建
Docs/20260622-agent-loop-baseline-handoff.md总结前期讨论,交接如何搭建最初的 agent loop baseline / pipeline,含 verifier YAML schema
Docs/discussions/responses/外部 AI 或合作者对 task families / benchmarks / case cards 的原始回答

下一步

产出首版 case-card 草稿(Docs/20260623-case-card-drafts-v0.md),从 4 个 P0 场景族抽 8–12 张卡片,明确每张的 objective oracle / acceptance relation、所需证据通道与 hard negative。