跳到主要内容

API 概览

本节对 wall_e 的模块进行高层拆分,强调解耦:

  • 核心可独立使用的组件:

    • BaseModel:可单独作为模型抽象,支持 from_cfgload_checkpoint、参数冻结与可视化等。
    • BaseDataset:封装 HuggingFace Datasets 的常用流水线操作与批加载器。
    • load_cfg:统一从路径/对象加载 OmegaConf 配置(与 Runner 解耦)。
  • 与训练执行耦合的组件:

    • RunnerLoopTrainLoop/ValidLoop/TestLoop):训练编排、调度验证/测试、混合精度、梯度累计、调度器对接。
    • 分布式与 DeepSpeed:启动策略、DistributedDataParallel/DeepSpeed 包装、DistributedSampler
    • 评估框架:Evaluator 与度量注册。
    • 支持系统:日志、回调(进度、W&B、检查点、轮次总结)。

建议阅读顺序:

  1. BaseModel / BaseDataset
  2. load_cfg
  3. Runner / Loop
  4. 回调、日志、分布式与评估