数据材料
来源:2-Data/DATA.md 与各数据卡片原则:只提交 manifest 与审计文档;原始数据、派生数据、checkpoint、日志默认不进 git。HTML 不含私有数据、凭据、原始样例或本地绝对路径。
| 数据资产 | 状态 | 说明 |
|---|---|---|
PDF snapshot images2-Data/raw/pdf-snapshot-images/ |
v0.1 local | 120 张 PNG 截图(1078–2448px 宽),含 manifest(filename / path / bytes / w / h / sha256)。尚无标签 / split,license TBD。 |
Image2Code inventory…/dataset-inventory.md |
active inventory | 30+ 数据集:WebSight、Design2Code、WebCode2M / Vision2UI、pix2code、ChartMimic、Plot2Code、RICO、Screen2Words、im2latex 等。优先核验 metadata / license / schema / smoke split。 |
RRVF cold-startsyficy/rrvf_coldstart_chartqa |
需核对 | 本地审计 JSON 为 1,818 records;论文附录为 1,913 dialogues,差异待核对。 |
RRVF benchmarks / modelschenzju/rrvf_chartmimic · rrvf_websight |
needs smoke test | ChartMimic / Plot2Code / WebSight 的精确 split 与许可待记录;发布模型需验证 snapshot 下载与加载。 |
公开安全边界
HTML、公开副本和 skill 文件不含私有数据、行级样例、敏感标识符、token、密码、SSH key 或内部凭据。
HTML 中不写本地绝对路径;使用相对路径或确认公开安全的 URL。
大体积原始数据、派生数据、模型 checkpoint、运行输出默认不进入 git。