Multimodal Verification for Agentic Coding Loop

一篇 position / vision paper：论证 agentic coding loop 需要一个显式的 multimodal verification 环节，用来检查代码产物在渲染、截图、布局、空间关系和用户意图层面是否真的正确。Image-to-code 是最自然的实验载体与代表性实例，而非全部 scope。

Position / Vision Paper + Small Experiments candidate-conditioned · evidence-grounded

Statusactive

Owner我 / Codex

Recent Sync2026-07-15 VeriHarness V0.2 formal 60/60 publication

Current FocusV0.2 prompt-only verification ablation analysis

这是什么

很多 coding-agent 任务的成功标准并不只存在于代码文本、编译结果或单元测试里，而是存在于最终可见的多模态产物里：页面是否和目标截图一致、UI 组件是否在正确位置、chart 是否表达了正确的数据关系、文字是否被遮挡或截断、prompt 里的视觉要求是否真的出现在渲染结果里。本项目把 multimodal verification 抬升为 agentic coding loop 中独立且必要的环节，并用最小实验观察它是否值得继续研究。

本看板按左侧目录分页组织。下面是各板块的入口——内容都直接放在各自页面里，便于阅读。

目录 / 快速进入

总览

核心主张与 Loop →

core claim、显式 verification loop、verifier 设计原则、4 种实现选项。

核心验证 V1 →

记录 V1 verification ladder、round/intermediate verification、L* 条件管理和版本化实验预设。

验证场景族 →

7 个 task families（P0–P2）与首版 P0 package、case-card 设计。

内部迭代

VeriHarness V0.5 round 1 complete · A-raw/B-base/P0

最正式的一次 verification-prompt 实验：3 条件（A-raw / B-base / P0）× 8 case × 2 replicate × {opus, gpt-5.6}，离线 gemini 评分。Round 1 主发现——最大跃升在 A-raw→…
20260723-veriharness-v0-5

项目说明

VeriHarness V0.4 Preview preview · Claude 150/150 · GPT 66/150

用精确 claude-opus-4-8 完整复跑 v0.3.1 X 系列，并公开 GPT-5.6-sol TRAPI 的 66 个严格有效阶段性 cell；GPT 缺失非随机，不作正式双模型效应推断。
20260722-veriharness-v0-4

阶段详情 V0.4 Preview Viewer

VeriHarness v0.3.1.preview complete 18/18

case5 单例上做 C0–C5 六版本验证合约受控对比（无验证 / Mentor 极简 / Full / Compact / 双 Checkpoint / 外部 Verdict），并沉淀九个验证设计维度。
20260719-veriharness-v0-3

项目说明

VeriHarness V0.2 系列 latest v0.2.3 active

统一管理 v0.2.0 Prompt 抽象重设计、v0.2.1 Core 1 / Mentor Prompt、v0.2.2 Verification Prompt Lab 与 v0.2.3 Verification Prompt Ablation；历史结果保持不变。
20260713-veriharness-v0-2

当前 v0.2.3 · Verification Prompt Ablation 实验总览 V0.2 Trajectory Viewer Result Summary

Core 0.1 · Prompt Sanity complete 12/12

用 case-h3/h6 的 12 条独立 native Claude Code 轨迹只比较 task constraints 与三条短 verification clauses：B 时长中位数约 8.95× A，但质量收益小且结构审计全部回退。
20260716-mentor-prompt-sanity-ablation

Core 0.1 看板 Public Result Summary Mentor 原文与适配

VeriHarness V0.1 frozen baseline

新建独立 Claude Agent SDK harness，用 H0P0/H0P1/H1P0/H1P1 分离 harness hard gate 与 verification policy prompt，并为后续 RL 保存结构化 trajectory。
20260712-veriharness-v0-1

项目说明 Case1 Trajectory Viewer Markdown Summary

外部项目

v-harness Viewer V0.4

把 VDiff image2html harness 证据规范化为只读的多工作区轨迹管理器，统一 Gallery、Run 档案、同 case 跨 run 比较、selected epoch 与 raw-event replay。
20260704-vdiff-vharness-visual-trajectory-viewer

项目说明 Viewer V0.4 总览

VDiff PDF-to-HTML Workflow foundation

独立复现 mentor 在困难 PDF-to-HTML 例子上搭建的复杂 workflow，并记录流程设计、数据、历史结果与案例。
20260617-vdiff-pdf-to-html-data-generation-loop

项目说明 VDiff Viewer

VDiff CSS 校准速记

skills/calibrate_css_spacing_v6.md 中文整理

这个 skill 的职责是：在字体已经由 1_font_fixed.html 修过以后，继续调整 HTML 的 CSS，使渲染出来的元素位置、宽度、间距和结构对齐尽量贴近 PDF 的目标 bbox。它不是重新生成页面，而是基于测量证据做 CSS 校准。

输入与输出

输入是某个 case 的 1_font_fixed.html、case 名、输出目录、job id 和 demo server；输出是 1_css_fixed.html。

完成标准

Rubrics 全部通过，并且校准单元的 dT、dL、dW、dH 最大偏差都约 ≤ 10px。

核心原则

Rubrics 决定是否完成；measurement 负责指出布局和间距偏差。delta 小不等于视觉一定正确。

校准流程

把输入 HTML 复制为 1_css_fixed.html，已有则复用，保留上一轮校准进度。
运行 ground_truth_v2.py 生成或复用 skeleton、salient elements 和 ground_truth.json。
后台启动 rubrics_gen.py，生成并过滤稳定 rubrics。
先读 ground_truth.json 的 skeleton，理解页面区域、嵌套和 out-of-flow 元素。
运行 measure.py --debug 看 baseline delta；之后按 rubrics 和 delta 循环修 CSS、测量、checkpoint。

如何读测量结果

ground_truth.json 里的 skeleton 是页面结构导航：区域 bbox 显示空间分区，tree_id 显示 DOM 父子关系，out-of-flow 元素最后处理。layout_measurement.json 记录每个元素的目标值、当前值和 delta。

排查时按 tree_id 把 sibling 分组。如果容器和子元素有相似偏移，优先修容器；如果某个子元素 residual 很大，再单独修它。表格整体是校准单元，单元格主要用于发现列宽和对齐问题。

常用修复手段

垂直间距：渲染太低就减少上边距、前一个 sibling 下边距或父级 padding；渲染太高就增加上边距。 容器 padding：子元素整体横向偏移且容器宽度也不对时，根据子元素目标 bbox 反推左右 padding。 元素 max-width：单个文本过宽时设置最大宽度；如果影响行数，再配合小步 letter-spacing。 表格 cell padding：表格过高时减少 th/td 的上下 padding，必要时设 border-spacing: 0。 Grid 重排：当 PDF 的行列、跨栏或非均匀列宽无法用普通 gap 表达时，重算 row/column track。 特殊换行：对 shape-outside、drop cap、复杂 wrapping 使用逐行 bbox 推导参数，不靠肉眼试错。 资产重提取：图片裁剪、纹理、阴影、透明度或比例本身错了，CSS 修不了，需要重新提取 asset。

硬约束

所有 CSS 数值都应从 ground truth bbox、measurement delta 或逐行 bbox 推导，不硬编码拍脑袋常量。
不要给 flex children 加 padding；不要轻易用 position: absolute，它会脱离文档流并破坏父子布局。
每轮修复后重新跑 measure.py；measurement 工具当黑盒使用，不读源码、不逆向。
字体大小调整是最后手段，优先使用 letter-spacing、max-width 和容器宽度。
如果 rubrics pass count 下降，说明新改动引入回归，应先诊断或换方案，再继续。

数据 & 积累 Notes

数据材料 →

PDF snapshot images、RRVF 数据卡与已归档数据线索。

相关 Blog / 文章 →

非论文的工程文章 / 讨论，按时间线积累，含原文复刻。

视觉反馈 / 验证 →

RRVF、UI2Code^N、HTMLCure、Visual-SDPO 等，按应用场景组织。

Page version: 2026-06-25-board-v4（active attempts 精简）· 项目从 “Diff-Guided Image-to-Code Agent Loop” 演进为 “Multimodal Verification for Agentic Coding Loop”。 Source of truth：1-Docs/20260622-multimodal-verification-scope.md、0-Project/README.md、current attempt README 与 PROJECT_GUIDELINES.md。