验证场景族(Task Families)
来源:benchmark-map / Docs/20260623-task-family-map-synthesis.md核心定义
Multimodal verification = candidate-conditioned, evidence-grounded acceptance checking. 给定需求 R、候选产物 C 和多模态证据 E,验证 C 在 E 下是否满足 R、证据在哪、失败位置、反馈能否指导修复。Render 是证据获取(evidence acquisition)的一种方式,并非定义;很多任务“没有唯一 golden artifact,但有可审计的 acceptance relation”。User 触发不是 oracle——客观一致性关系才是。
OCR/layout 抽取、HTML/Markdown/文档结构、编辑后的 LaTeX/PDF/slide、chart code、UI/后端状态、终端视觉状态、诊断、route/layout 声明、GUI 轨迹、终态断言。
图片/截图/PDF 页、OCR/boxes/layout tree、DOM/accessibility tree/CSS/源码、compile/runtime/console logs、网络流、后端响应、文件系统/数据库/notebook JSON、源数据表、code diff、baseline 截图。
pass / fail / uncertain,附违反的约束与证据指针,并能定位失败(page region、span、box、DOM node、源码行、chart element、时间区间、UI state、文件路径)。
七个场景族总览
| # | 场景族 | 核心问题 | 数据 / 构建 | 优先级 |
|---|---|---|---|---|
| 1 | Grounded Extraction 信息抽取验证 | 候选 OCR / 布局 / 表格抽取是否正确反映源证据?证明验证不需要渲染。 | 有 OCR / 文档解析 / 表格数据可改造;需注入 hard negatives | P0 |
| 2 | Visual→Structured Artifact 视觉到结构化产物 | 候选 HTML / chart code / SVG 是否保留视觉、语义、结构内容?“有视觉 golden,但无唯一实现 golden”。 | screenshot/design-to-code、chart-to-code 数据可改造 | P0 |
| 3 | Constraint-Based Editing 约束式产物编辑 | 编辑后的 LaTeX/PDF/slide/UI 是否满足显式约束并保留必要内容? | 易自建:约束可审计、可注入失败 | P0 |
| 4 | Objective State-Consistency 客观状态一致性 | 可见状态是否与配置 / 日志 / DOM / 后端 / 文件系统等客观证据一致? | 公开数据稀疏,但状态可控、易造 fixture | P0/P1 |
| 5 | Cross-Modal Faithfulness 跨模态忠实性 | 候选 chart / report / caption 是否忠实反映底层数据或源证据? | chart/data 易造(数据表即 oracle);科学 figure 需标注 | P1 |
| 6 | Agent Trajectory / Final-State 智能体轨迹 / 终态 | agent 是否真的完成任务、有无副作用? | GUI agent / bug 复现数据可改;完整环境更贵 | P1 |
| 7 | Structural / Spatial / Interaction 结构 / 空间 / 交互 | 候选 route / 布局 / 拓扑 / focus order 是否满足几何与交互约束? | 空间/地图/diagram benchmark 需从直接问答改成候选验证 | P1/P2 |
P0 场景族详解
核心问题:给定源视觉/文档输入与候选抽取,候选是否正确反映源证据?
典型候选:OCR 文本、带 bbox 的 text span、阅读顺序、段落分组、表格抽取、表单字段、key-value、Markdown/结构化输出、layout tree。
acceptance 例:抽取文本匹配视觉区域;bbox 指向正确内容;阅读顺序符合文档;表格单元格归到正确行/列/表头;caption 未并入正文;无缺失/重复/幻觉/乱序。
为何重要:证明多模态验证不需要渲染;区分“能 OCR”与“能验证候选 OCR/layout 输出”。
核心问题:给定视觉源或参考观察,候选结构化产物是否保留相关视觉、语义、结构内容?
典型候选:HTML/CSS、Markdown、PDF-to-HTML、screenshot-to-HTML、design-to-code、chart code、SVG/diagram code。
acceptance 例:可见内容保留;阅读顺序正确;布局层级可辨;表格/公式/caption 关系保留;HTML 语义有效而非仅视觉相似;候选忠实但不要求相同实现。
关键观点:“有视觉级 golden 信号,但没有唯一实现 golden” —— PDF/screenshot-to-HTML 不能用精确代码匹配评分。保留与 image-to-code 起点的连续性。
核心问题:给定原产物、编辑指令与候选编辑产物,候选是否满足所有显式约束并保留必要内容?
典型候选:编辑后的 LaTeX 源+编译 PDF、文档、slide deck、HTML/UI、report、chart/dashboard、SVG/diagram。
acceptance 例:论文不超过 8 页;Method 从第 2 页开始;图与 caption 仍可见且相邻;无重要内容删除;表格不溢出;slide 翻译保留全部内容且不裁剪;chart 编辑只改目标且保留数据值。
为何最强:没有唯一终稿,但有强客观约束——精确匹配不可能、compile 成功不够、页数单独不够、视觉/布局证据必要、源/内容不变量重要。贴近真实文档与 coding agent 工作流。
核心问题:系统可见状态是否与客观状态证据(配置、日志、协议输出、DOM、后端数据、文件系统、baseline)一致?
典型候选:诊断、终态断言、修复、可见状态声明、问题解释、前后状态对比。
acceptance 例:prompt 配置 + 终端宽度 + ANSI 输出推出期望终端布局;一条后端 assistant 消息对应一条可见消息;网络流块未被追加两次;notebook 渲染输出匹配执行状态;可见 UI 计数匹配 DOM/后端;导出成功对应实际存在的文件。
为何重要:避免过拟合到静态产物生成,捕捉真实 debugging / agent-monitoring 场景。zsh prompt、GPT 前端重复消息只是此族的例子,不是任务族本身。
首版 P0 Package & 选择标准
聚焦场景族 1–4,做 8–12 张高质量 case card(每族 2–3 张),每张含:至少一个 valid candidate、一个自然/模型失败、一个受控 hard negative、明确的 objective oracle / acceptance relation、所需证据通道,以及是否有现成数据。最重要的字段是 Objective oracle / acceptance relation——说不清就不是好的核心验证任务。
- 是否产生 consequential errors?
- 正确性能否独立审计?
- hard negatives 能否骗过模型?
- verifier 能否定位证据?
- feedback 能否改善修复?
- 是否连接 agent/artifact/document 工作流?
- verdict accuracy / macro-F1
- false-accept rate on hard negatives(最关键)
- false-reject on valid alternatives
- constraint-level precision/recall
- evidence localization accuracy
- repair utility:feedback 是否改善下一候选
验证器评估尤其要看 false-accept:接受一个坏候选往往比拒绝一个合法候选更危险。下一步具体产物是 Docs/20260623-case-card-drafts-v0.md。