Image2Code Data Collection
active目标
0-Project/20260621-image2code-data-collection/
搜集可用的 image2code 训练集、评测集和辅助数据源(WebSight、Design2Code、WebCode2M / Vision2UI、pix2code、ChartMimic、Plot2Code、RICO、Screen2Words、im2latex 等 30+ 数据集)。已建立初版 inventory、采集计划、source access 检查和 Hugging Face CLI agent skill。这条线为 multimodal verification 的 benchmark map 与 minimal loop 提供素材。
交互式 Dashboard(已有)
已产出
| 文件 | 类型 | 用途 |
|---|---|---|
dataset-inventory.md | data | image2code 训练集、评测集、辅助数据源盘点(优先级 / 用途 / 可用性等级 / 待核验项) |
acquisition-plan.md | plan | 数据源 metadata、license、schema、renderer 和 smoke split 核验流程 |
source-access.md | audit | 关键数据源入口的 HTTP 可达性检查记录 |
agent-handoff.md / tasks/ | handoff | 给后续 agent 的交接,含项目边界、禁止事项、可派发任务 briefs |
skills/hf-cli-agent-skill.md | workflow | Hugging Face hf CLI 与 coding agent 数据搜集操作说明 |
下一步 & 公开边界
对关键来源(WebSight、Design2Code、ChartMimic、Plot2Code、WebCode2M / Vision2UI 等)做 metadata 与 smoke split 核验;只提交 manifest 与审计文档,不提交原始数据。