Dataset API 概览
wall_e/dataset 提供三类数据集包装,基于 HuggingFace Datasets:
- BaseDataset:抽象基类,统一批加载、流水线操作、持久化与 Hub 推送。
- BaseMapDataset:面向内存可随机访问(map-style)的数据集,支持自动划分与子集采样。
- BaseIterableDataset:面向流式(iterable-style)数据集的封装。
建议阅读顺序:
- BaseDataset(通用能力)
- BaseMapDataset(map-style 特性)
- BaseIterableDataset(iterable-style 特性)