Paper Survey · 视觉反馈 + 强化学习

完整调研页（含搜索）：paper-survey.html →

围绕 “生成 → 渲染 → 视觉反馈 → 优化” 闭环范式的 7 篇核心论文。单纯的 “生成—截图—点评—修改” 已不够新颖；前沿工作沿迭代视觉优化 + RL、多视口 browser trace、视觉缺陷归因到代码语句、浏览器 Agent-as-a-Judge、纯图像学习的验证非对称性等方向推进。

分类 Taxonomy

RL + 视觉反馈

RRVFUI2Code^NMSRLRLRF

浏览器交互式评估

HTMLCureWebCompass

缺陷归因 / Credit

Visual-SDPOMSRL

Benchmark / 评测

WebCompassHTMLCure

时间线

2025.05

RLRF — SVG 渲染反馈 RL 首次提出

2025.11

UI2Code^N — 迭代视觉优化 + RVPO 相对偏好 RL

2026.04

WebCompass — Agent-as-a-Judge + 浏览器 MCP 探索

2026.06

Visual-SDPO — 视觉缺陷到代码语句的归因

2026.06

HTMLCure — 多视口交互状态 browser trace + 修复引擎

2026.07

RRVF — 纯图像学习，验证非对称性原理

2026 (ICLR)

MSRL — 多粒度 reward + 课程训练突破 SFT 瓶颈

核心论文详解

RRVF: Learning Only with Images — Visual RL with Reasoning, Rendering, and Visual Feedback

arXiv:2507.207662026.07GRPO视觉反馈Chart + Web

核心洞察 — 验证非对称性：验证渲染结果是否匹配源图像，远比从图像生成代码简单。这种不对称性天然提供 RL 奖励信号，使模型能仅从原始图像学习，无需配对文本监督。

闭环框架：Reasoning（推理生成代码）→ Rendering（渲染为图像）→ Visual Feedback（与源图像比较得到奖励），用 GRPO 端到端优化，支持多轮自我修正。最终模型甚至超越用于生成训练期视觉反馈的更强 MLLM。

方法详情 & 对比

方法框架

Reasoning：MLLM 深度视觉推理生成结构化代码（matplotlib / HTML）
Rendering：代码渲染为可视化输出
Visual Feedback：渲染输出 vs 源图像计算视觉相似度作奖励
RL：GRPO；支持多轮 self-correction

关键特点

完全摆脱 image-text paired supervision
奖励仅来自视觉比较，无需人工标注
“学生超越老师”

与其他工作

vs UI2Code^N：RRVF 无需任何文本监督
vs Visual-SDPO：RRVF 用全局视觉奖励，后者做细粒度代码归因
vs MSRL：都用 GRPO，但 RRVF 针对 chart+web 通用场景

UI2Code^N: UI-to-Code Generation as Interactive Visual Optimization

arXiv:2511.081952025.11 (v2: 2026.06)RVPO迭代视觉优化渲染反馈

核心创新 — Relative Visual Policy Optimization：不对渲染结果打绝对分，而是对多个候选渲染结果做相对排序，解决视觉评估器噪声大的问题。

将 UI-to-code 从单次生成重新定义为闭环迭代优化：生成 → 渲染 → 视觉检查 → 基于反馈修改。三阶段训练（持续预训练、SFT、RVPO）；9B 开源模型在 drafting / polishing / editing 上超越更大模型。

方法详情

RVPO

对同一输入生成多个候选并渲染
对视觉输出做相对排序而非绝对评分
用相对偏好信号做 preference-based RL

绝对评分 vs 相对排序

噪声敏感性：绝对高 / 相对低
标定：绝对需校准尺度 / 相对只需判断好坏顺序

HTMLCure: Turning Browser Experience into State-Guided Repair for Interactive HTML

arXiv:2605.268072026.06浏览器交互评估多视口/多状态SFT 数据生成

核心创新 — 超越静态截图：LLM 生成的 HTML “render once, then fail under scroll, hover, click, resize”。HTMLCure 在多视口和交互状态下执行完整轨迹，记录确定性 browser evidence，用 VLM 分析关键帧。

Browser experience 框架：(1) 多视口多交互状态执行并录制轨迹；(2) state-guided repair engine 诊断 → 选择修复策略 → 验证；(3) 通过质检的页面导出为 SFT 数据。从 97K prompt corpus 产出 40K refined SFT 数据集。

方法详情 & 结果

Browser Evaluation

跨 desktop / tablet / mobile 执行
记录 scroll / hover / click / resize / gameplay 状态
给 VLM curated keyframes 而非孤立截图

结果

HTMLBench-400：HTMLCure-27B-Refined 50.6，deterministic test pass 45.2%
MiniAppBench：平均 81.2，比原始 27B SFT 提升 15.3 分

Visual-SDPO: Self-Distillation Policy Optimization via Visual Feedback

arXiv:2606.103342026.06GRPO + 自蒸馏视觉缺陷归因Chart + Web + Slides

核心创新 — Visual-Grounded Code Credit Weighting：将检测到的视觉缺陷（重叠、裁剪文字、对齐破坏、低对比度、溢出）追溯到导致缺陷的具体代码语句，蒸馏时对这些语句增大学习信号。

Self-distillation policy optimization：权重共享的 teacher 接收渲染后视觉反馈作 privileged context，蒸馏给 coding student。基于 Qwen3-VL-8B，在 ChartMimic、Design2Code、AeSlides 上均超 zero-shot base 10+ 分，over GRPO +2.4 分且推理无额外开销。

方法详情

归因流程

Visual defect → 受影响 DOM element → 责任代码语句 → 放大训练信号

互补目标

Sequence-level GRPO 奖励可执行、高质量 rollouts
失败样本也可学：execution errors 作 privileged context

WebCompass: Multimodal Web Coding Evaluation for Code Language Models

arXiv:2604.182242026.04评测基准浏览器 AgentText/Image/Video

核心创新 — Agent-as-a-Judge：让 Agent 在真实浏览器中执行生成的网站，通过 MCP 探索交互行为，迭代合成有针对性的测试用例，近似人类验收测试。

覆盖 Web 工程全生命周期（generation / editing / repair）的多模态评测基准，输入支持 text / image / video。关键发现：aesthetics 是最持久瓶颈（尤其开源模型），Vue 持续具有挑战性。

方法详情 & 发现

评测设计

3 输入模态 × 3 任务类型 = 7 种组合；难度 Easy/Medium/Hard
覆盖 15 生成域、16 编辑操作、11 修复缺陷类型

关键发现

闭源模型仍更强；Aesthetics 是最持久瓶颈；Vue 持续具挑战

MSRL: Breaking the SFT Plateau — Multimodal Structured RL for Chart-to-Code

arXiv:2508.13587ICLR 2026多粒度 Reward文本+视觉反馈Chart 专用

核心贡献 — 多粒度奖励 + 课程训练：Rule-based textual rewards 验证代码细节 + Model-based visual rewards 评估渲染结构相似度，两阶段课程训练（先 text 后 vision）突破 SFT 瓶颈。

系统揭示 Chart-to-code 中 SFT 的性能天花板并用多模态结构化 RL 突破。3M chart-code pairs（来自 arXiv 真实数据），多粒度奖励，课程式训练。ChartMimic +6.2%，ReachQA +9.9%，超越所有现有方法。

方法详情

课程训练

Stage 1：仅 textual rewards（建立代码正确性）
Stage 2：引入 visual rewards（提升视觉保真度），避免早期噪声干扰

RLRF: Rendering-Aware Reinforcement Learning for Vector Graphics Generation

arXiv:2505.207932025.05渲染反馈 RLSVG视觉保真度

核心问题 — 训练时从不观察渲染结果：现有 VLM 生成 SVG 时从未在训练中看到渲染图像。RLRF 用渲染反馈弥合 gap：生成 SVG → 渲染 → 与原图比较 → 计算奖励 → RL 优化。

将 SVG 生成建模为 VLM 代码生成任务，通过渲染反馈的 RL 优化。由于 autoregressive SVG 的可微渲染器尚不可用，RLRF 用 evaluative feedback 而非梯度，显著优于 SFT，生成更精确、高效、语义连贯的 SVG。

研究空白 & 对本项目的启示

尚未被覆盖的研究空白 / 潜在机会

交互性 + RL：HTMLCure 的 browser trace 仅用于 SFT 数据生成，尚未将交互状态反馈直接嵌入 RL 训练循环
细粒度归因 + 浏览器交互：Visual-SDPO 的归因在静态渲染上，未考虑交互状态下的缺陷归因
Agent 自动测试 → reward：WebCompass 的 Agent-as-Judge 可作更丰富的 reward signal，目前仅用于评测
跨模态一致性：多数工作关注视觉保真度，较少关注代码质量（可维护性、语义性、accessibility）
responsive 设计：仅 HTMLCure 考虑多视口，其他工作基本在单一分辨率评估

对本项目的启示

1. 超越静态截图：至少需考虑多视口或交互状态，单一截图评估不够全面——对应 verifier 的 evidence-aware 与 state-consistency 场景族。

2. 归因机制有价值：Visual-SDPO 证明缺陷 → 代码归因能加速训练，与 actionable / localizable feedback 原则高度契合。

3. Agent 循环可整合更多信号：WebCompass 的 Agent 探索 + HTMLCure 的 browser trace + Visual-SDPO 的归因，共同指向更完整的验证闭环。

4. 验证 ≠ 生成：这些工作多为生成 / 训练框架；本文的差异化在于把 verification 抬升为通用 loop-level 能力，强调 false-accept 风险与可审计 oracle。

来源：dashboard/paper-survey.html（含全文搜索）。相关：视觉不可替代性（44 篇）→ · 核心主张与 Loop →