跳到主要内容

Dataset API 概览

wall_e/dataset 提供三类数据集包装,基于 HuggingFace Datasets:

  • BaseDataset:抽象基类,统一批加载、流水线操作、持久化与 Hub 推送。
  • BaseMapDataset:面向内存可随机访问(map-style)的数据集,支持自动划分与子集采样。
  • BaseIterableDataset:面向流式(iterable-style)数据集的封装。

建议阅读顺序:

  1. BaseDataset(通用能力)
  2. BaseMapDataset(map-style 特性)
  3. BaseIterableDataset(iterable-style 特性)