验证场景族（Task Families）

来源：benchmark-map / Docs/20260623-task-family-map-synthesis.md

核心定义

Multimodal verification = candidate-conditioned, evidence-grounded acceptance checking. 给定需求 R、候选产物 C 和多模态证据 E，验证 C 在 E 下是否满足 R、证据在哪、失败位置、反馈能否指导修复。Render 是证据获取（evidence acquisition）的一种方式，并非定义；很多任务“没有唯一 golden artifact，但有可审计的 acceptance relation”。User 触发不是 oracle——客观一致性关系才是。

Candidate (C) 例子

OCR/layout 抽取、HTML/Markdown/文档结构、编辑后的 LaTeX/PDF/slide、chart code、UI/后端状态、终端视觉状态、诊断、route/layout 声明、GUI 轨迹、终态断言。

Evidence (E) 例子

图片/截图/PDF 页、OCR/boxes/layout tree、DOM/accessibility tree/CSS/源码、compile/runtime/console logs、网络流、后端响应、文件系统/数据库/notebook JSON、源数据表、code diff、baseline 截图。

核心判定

pass / fail / uncertain，附违反的约束与证据指针，并能定位失败（page region、span、box、DOM node、源码行、chart element、时间区间、UI state、文件路径）。

七个场景族总览

#	场景族	核心问题	数据 / 构建	优先级
1	Grounded Extraction 信息抽取验证	候选 OCR / 布局 / 表格抽取是否正确反映源证据？证明验证不需要渲染。	有 OCR / 文档解析 / 表格数据可改造；需注入 hard negatives	P0
2	Visual→Structured Artifact 视觉到结构化产物	候选 HTML / chart code / SVG 是否保留视觉、语义、结构内容？“有视觉 golden，但无唯一实现 golden”。	screenshot/design-to-code、chart-to-code 数据可改造	P0
3	Constraint-Based Editing 约束式产物编辑	编辑后的 LaTeX/PDF/slide/UI 是否满足显式约束并保留必要内容？	易自建：约束可审计、可注入失败	P0
4	Objective State-Consistency 客观状态一致性	可见状态是否与配置 / 日志 / DOM / 后端 / 文件系统等客观证据一致？	公开数据稀疏，但状态可控、易造 fixture	P0/P1
5	Cross-Modal Faithfulness 跨模态忠实性	候选 chart / report / caption 是否忠实反映底层数据或源证据？	chart/data 易造（数据表即 oracle）；科学 figure 需标注	P1
6	Agent Trajectory / Final-State 智能体轨迹 / 终态	agent 是否真的完成任务、有无副作用？	GUI agent / bug 复现数据可改；完整环境更贵	P1
7	Structural / Spatial / Interaction 结构 / 空间 / 交互	候选 route / 布局 / 拓扑 / focus order 是否满足几何与交互约束？	空间/地图/diagram benchmark 需从直接问答改成候选验证	P1/P2

P0 场景族详解

1 · Grounded Extraction VerificationP0

核心问题：给定源视觉/文档输入与候选抽取，候选是否正确反映源证据？

典型候选：OCR 文本、带 bbox 的 text span、阅读顺序、段落分组、表格抽取、表单字段、key-value、Markdown/结构化输出、layout tree。

acceptance 例：抽取文本匹配视觉区域；bbox 指向正确内容；阅读顺序符合文档；表格单元格归到正确行/列/表头；caption 未并入正文；无缺失/重复/幻觉/乱序。

为何重要：证明多模态验证不需要渲染；区分“能 OCR”与“能验证候选 OCR/layout 输出”。

2 · Visual→Structured Artifact VerificationP0

核心问题：给定视觉源或参考观察，候选结构化产物是否保留相关视觉、语义、结构内容？

典型候选：HTML/CSS、Markdown、PDF-to-HTML、screenshot-to-HTML、design-to-code、chart code、SVG/diagram code。

acceptance 例：可见内容保留；阅读顺序正确；布局层级可辨；表格/公式/caption 关系保留；HTML 语义有效而非仅视觉相似；候选忠实但不要求相同实现。

关键观点：“有视觉级 golden 信号，但没有唯一实现 golden” —— PDF/screenshot-to-HTML 不能用精确代码匹配评分。保留与 image-to-code 起点的连续性。

3 · Constraint-Based Artifact Editing VerificationP0

核心问题：给定原产物、编辑指令与候选编辑产物，候选是否满足所有显式约束并保留必要内容？

典型候选：编辑后的 LaTeX 源+编译 PDF、文档、slide deck、HTML/UI、report、chart/dashboard、SVG/diagram。

acceptance 例：论文不超过 8 页；Method 从第 2 页开始；图与 caption 仍可见且相邻；无重要内容删除；表格不溢出；slide 翻译保留全部内容且不裁剪；chart 编辑只改目标且保留数据值。

为何最强：没有唯一终稿，但有强客观约束——精确匹配不可能、compile 成功不够、页数单独不够、视觉/布局证据必要、源/内容不变量重要。贴近真实文档与 coding agent 工作流。

4 · Objective State-Consistency VerificationP0/P1

核心问题：系统可见状态是否与客观状态证据（配置、日志、协议输出、DOM、后端数据、文件系统、baseline）一致？

典型候选：诊断、终态断言、修复、可见状态声明、问题解释、前后状态对比。

acceptance 例：prompt 配置 + 终端宽度 + ANSI 输出推出期望终端布局；一条后端 assistant 消息对应一条可见消息；网络流块未被追加两次；notebook 渲染输出匹配执行状态；可见 UI 计数匹配 DOM/后端；导出成功对应实际存在的文件。

为何重要：避免过拟合到静态产物生成，捕捉真实 debugging / agent-monitoring 场景。zsh prompt、GPT 前端重复消息只是此族的例子，不是任务族本身。

首版 P0 Package & 选择标准

聚焦场景族 1–4，做 8–12 张高质量 case card（每族 2–3 张），每张含：至少一个 valid candidate、一个自然/模型失败、一个受控 hard negative、明确的 objective oracle / acceptance relation、所需证据通道，以及是否有现成数据。最重要的字段是 Objective oracle / acceptance relation——说不清就不是好的核心验证任务。

更好的选择标准

是否产生 consequential errors？
正确性能否独立审计？
hard negatives 能否骗过模型？
verifier 能否定位证据？
feedback 能否改善修复？
是否连接 agent/artifact/document 工作流？

评估维度（不止 accuracy）

verdict accuracy / macro-F1
false-accept rate on hard negatives（最关键）
false-reject on valid alternatives
constraint-level precision/recall
evidence localization accuracy
repair utility：feedback 是否改善下一候选

验证器评估尤其要看 false-accept：接受一个坏候选往往比拒绝一个合法候选更危险。下一步具体产物是 Docs/20260623-case-card-drafts-v0.md。

来源：0-Project/20260622-multimodal-verification-benchmark-map/Docs/20260623-task-family-map-synthesis.md。相关：benchmark map 子项目 → · 核心主张与 Loop →