数据材料

来源:2-Data/DATA.md 与各数据卡片

原则:只提交 manifest 与审计文档;原始数据、派生数据、checkpoint、日志默认不进 git。HTML 不含私有数据、凭据、原始样例或本地绝对路径。

数据资产状态说明
PDF snapshot images
2-Data/raw/pdf-snapshot-images/
v0.1 local 120 张 PNG 截图(1078–2448px 宽),含 manifest(filename / path / bytes / w / h / sha256)。尚无标签 / split,license TBD。
Image2Code inventory
…/dataset-inventory.md
active inventory 30+ 数据集:WebSight、Design2Code、WebCode2M / Vision2UI、pix2code、ChartMimic、Plot2Code、RICO、Screen2Words、im2latex 等。优先核验 metadata / license / schema / smoke split。
RRVF cold-start
syficy/rrvf_coldstart_chartqa
需核对 本地审计 JSON 为 1,818 records;论文附录为 1,913 dialogues,差异待核对。
RRVF benchmarks / models
chenzju/rrvf_chartmimic · rrvf_websight
needs smoke test ChartMimic / Plot2Code / WebSight 的精确 split 与许可待记录;发布模型需验证 snapshot 下载与加载。

公开安全边界

HTML、公开副本和 skill 文件不含私有数据、行级样例、敏感标识符、token、密码、SSH key 或内部凭据。

HTML 中不写本地绝对路径;使用相对路径或确认公开安全的 URL。

大体积原始数据、派生数据、模型 checkpoint、运行输出默认不进入 git。

数据文档