Image2Code Data Collection

active

目标

0-Project/20260621-image2code-data-collection/

搜集可用的 image2code 训练集、评测集和辅助数据源(WebSight、Design2Code、WebCode2M / Vision2UI、pix2code、ChartMimic、Plot2Code、RICO、Screen2Words、im2latex 等 30+ 数据集)。已建立初版 inventory、采集计划、source access 检查和 Hugging Face CLI agent skill。这条线为 multimodal verification 的 benchmark map 与 minimal loop 提供素材。

交互式 Dashboard(已有)

已产出

文件类型用途
dataset-inventory.mddataimage2code 训练集、评测集、辅助数据源盘点(优先级 / 用途 / 可用性等级 / 待核验项)
acquisition-plan.mdplan数据源 metadata、license、schema、renderer 和 smoke split 核验流程
source-access.mdaudit关键数据源入口的 HTTP 可达性检查记录
agent-handoff.md / tasks/handoff给后续 agent 的交接,含项目边界、禁止事项、可派发任务 briefs
skills/hf-cli-agent-skill.mdworkflowHugging Face hf CLI 与 coding agent 数据搜集操作说明

下一步 & 公开边界

对关键来源(WebSight、Design2Code、ChartMimic、Plot2Code、WebCode2M / Vision2UI 等)做 metadata 与 smoke split 核验;只提交 manifest 与审计文档,不提交原始数据。