API 概览
本节对 wall_e 的模块进行高层拆分,强调解耦:
-
核心可独立使用的组件:
BaseModel:可单独作为模型抽象,支持from_cfg、load_checkpoint、参数冻结与可视化等。BaseDataset:封装 HuggingFace Datasets 的常用流水线操作与批加载器。load_cfg:统一从路径/对象加载 OmegaConf 配置(与 Runner 解耦)。
-
与训练执行耦合的组件:
Runner与Loop(TrainLoop/ValidLoop/TestLoop):训练编排、调度验证/测试、混合精度、梯度累计、调度器对接。- 分布式与 DeepSpeed:启动策略、
DistributedDataParallel/DeepSpeed 包装、DistributedSampler。 - 评估框架:
Evaluator与度量注册。 - 支持系统:日志、回调(进度、W&B、检查点、轮次总结)。
建议阅读顺序:
BaseModel/BaseDatasetload_cfgRunner/Loop- 回调、日志、分布式与评估