验证场景族(Task Families)

来源:benchmark-map / Docs/20260623-task-family-map-synthesis.md

核心定义

Multimodal verification = candidate-conditioned, evidence-grounded acceptance checking. 给定需求 R、候选产物 C 和多模态证据 E,验证 C 在 E 下是否满足 R、证据在哪、失败位置、反馈能否指导修复。Render 是证据获取(evidence acquisition)的一种方式,并非定义;很多任务“没有唯一 golden artifact,但有可审计的 acceptance relation”。User 触发不是 oracle——客观一致性关系才是。

Candidate (C) 例子

OCR/layout 抽取、HTML/Markdown/文档结构、编辑后的 LaTeX/PDF/slide、chart code、UI/后端状态、终端视觉状态、诊断、route/layout 声明、GUI 轨迹、终态断言。

Evidence (E) 例子

图片/截图/PDF 页、OCR/boxes/layout tree、DOM/accessibility tree/CSS/源码、compile/runtime/console logs、网络流、后端响应、文件系统/数据库/notebook JSON、源数据表、code diff、baseline 截图。

核心判定

pass / fail / uncertain,附违反的约束与证据指针,并能定位失败(page region、span、box、DOM node、源码行、chart element、时间区间、UI state、文件路径)。

七个场景族总览

#场景族核心问题数据 / 构建优先级
1Grounded Extraction
信息抽取验证
候选 OCR / 布局 / 表格抽取是否正确反映源证据?证明验证需要渲染。有 OCR / 文档解析 / 表格数据可改造;需注入 hard negativesP0
2Visual→Structured Artifact
视觉到结构化产物
候选 HTML / chart code / SVG 是否保留视觉、语义、结构内容?“有视觉 golden,但无唯一实现 golden”。screenshot/design-to-code、chart-to-code 数据可改造P0
3Constraint-Based Editing
约束式产物编辑
编辑后的 LaTeX/PDF/slide/UI 是否满足显式约束并保留必要内容?易自建:约束可审计、可注入失败P0
4Objective State-Consistency
客观状态一致性
可见状态是否与配置 / 日志 / DOM / 后端 / 文件系统等客观证据一致?公开数据稀疏,但状态可控、易造 fixtureP0/P1
5Cross-Modal Faithfulness
跨模态忠实性
候选 chart / report / caption 是否忠实反映底层数据或源证据?chart/data 易造(数据表即 oracle);科学 figure 需标注P1
6Agent Trajectory / Final-State
智能体轨迹 / 终态
agent 是否真的完成任务、有无副作用?GUI agent / bug 复现数据可改;完整环境更贵P1
7Structural / Spatial / Interaction
结构 / 空间 / 交互
候选 route / 布局 / 拓扑 / focus order 是否满足几何与交互约束?空间/地图/diagram benchmark 需从直接问答改成候选验证P1/P2

P0 场景族详解

1 · Grounded Extraction VerificationP0

核心问题:给定源视觉/文档输入与候选抽取,候选是否正确反映源证据?

典型候选:OCR 文本、带 bbox 的 text span、阅读顺序、段落分组、表格抽取、表单字段、key-value、Markdown/结构化输出、layout tree。

acceptance 例:抽取文本匹配视觉区域;bbox 指向正确内容;阅读顺序符合文档;表格单元格归到正确行/列/表头;caption 未并入正文;无缺失/重复/幻觉/乱序。

为何重要:证明多模态验证需要渲染;区分“能 OCR”与“能验证候选 OCR/layout 输出”。

2 · Visual→Structured Artifact VerificationP0

核心问题:给定视觉源或参考观察,候选结构化产物是否保留相关视觉、语义、结构内容?

典型候选:HTML/CSS、Markdown、PDF-to-HTML、screenshot-to-HTML、design-to-code、chart code、SVG/diagram code。

acceptance 例:可见内容保留;阅读顺序正确;布局层级可辨;表格/公式/caption 关系保留;HTML 语义有效而非仅视觉相似;候选忠实但不要求相同实现。

关键观点:“有视觉级 golden 信号,但没有唯一实现 golden” —— PDF/screenshot-to-HTML 不能用精确代码匹配评分。保留与 image-to-code 起点的连续性。

3 · Constraint-Based Artifact Editing VerificationP0

核心问题:给定原产物、编辑指令与候选编辑产物,候选是否满足所有显式约束并保留必要内容?

典型候选:编辑后的 LaTeX 源+编译 PDF、文档、slide deck、HTML/UI、report、chart/dashboard、SVG/diagram。

acceptance 例:论文不超过 8 页;Method 从第 2 页开始;图与 caption 仍可见且相邻;无重要内容删除;表格不溢出;slide 翻译保留全部内容且不裁剪;chart 编辑只改目标且保留数据值。

为何最强:没有唯一终稿,但有强客观约束——精确匹配不可能、compile 成功不够、页数单独不够、视觉/布局证据必要、源/内容不变量重要。贴近真实文档与 coding agent 工作流。

4 · Objective State-Consistency VerificationP0/P1

核心问题:系统可见状态是否与客观状态证据(配置、日志、协议输出、DOM、后端数据、文件系统、baseline)一致?

典型候选:诊断、终态断言、修复、可见状态声明、问题解释、前后状态对比。

acceptance 例:prompt 配置 + 终端宽度 + ANSI 输出推出期望终端布局;一条后端 assistant 消息对应一条可见消息;网络流块未被追加两次;notebook 渲染输出匹配执行状态;可见 UI 计数匹配 DOM/后端;导出成功对应实际存在的文件。

为何重要:避免过拟合到静态产物生成,捕捉真实 debugging / agent-monitoring 场景。zsh prompt、GPT 前端重复消息只是此族的例子,不是任务族本身。

首版 P0 Package & 选择标准

聚焦场景族 1–4,做 8–12 张高质量 case card(每族 2–3 张),每张含:至少一个 valid candidate、一个自然/模型失败、一个受控 hard negative、明确的 objective oracle / acceptance relation、所需证据通道,以及是否有现成数据。最重要的字段是 Objective oracle / acceptance relation——说不清就不是好的核心验证任务。

更好的选择标准
  • 是否产生 consequential errors?
  • 正确性能否独立审计?
  • hard negatives 能否骗过模型?
  • verifier 能否定位证据?
  • feedback 能否改善修复?
  • 是否连接 agent/artifact/document 工作流?
评估维度(不止 accuracy)
  • verdict accuracy / macro-F1
  • false-accept rate on hard negatives(最关键)
  • false-reject on valid alternatives
  • constraint-level precision/recall
  • evidence localization accuracy
  • repair utility:feedback 是否改善下一候选

验证器评估尤其要看 false-accept:接受一个坏候选往往比拒绝一个合法候选更危险。下一步具体产物是 Docs/20260623-case-card-drafts-v0.md