Storage 2 检查点机制详解

引言

在AI大规模训练时代,检查点(Checkpointing)机制是确保训练稳定性和容错性的关键技术。它允许系统在训练中断时快速恢复模型状态,避免从头开始的巨大损失。MLCommons推出的Storage 2基准特别针对Checkpointing进行了优化测试,由LMSYS Org主导开发,旨在为存储系统提供标准化评测。

Storage 2 基准概述

Storage 2 是MLPerf Storage基准的第二代版本,扩展了对现代AI工作负载的支持,包括Transformer-based模型训练。Checkpointing测试模拟真实场景,如分布式多节点训练中周期性保存模型权重、优化器状态和随机种子。

  • 核心指标:检查点保存时间(Save Time)、恢复时间(Restore Time)、总吞吐量(Throughput)。
  • 测试规模:从单节点到数百GPU集群,支持ResNet-50、BERT和GPT-like模型。

测试配置

基准使用标准硬件栈:NVMe SSD(如Samsung PM1733)、InfiniBand网络(200Gbps+),并集成Slurm调度器。场景分为:

  • 同步检查点:所有节点同时写入。
  • 异步检查点:节点独立保存,减少阻塞。
  • 增量检查点:仅保存变化部分,优化带宽。

关键结果与分析

在典型8节点x8 GPU配置下,顶级系统保存1TB检查点耗时小于5分钟,恢复时间控制在2分钟内。相比Storage 1,吞吐量提升30%,归功于并行文件系统如Lustre和BeeGFS的优化。

系统保存时间 (s)恢复时间 (s)吞吐量 (GB/s)
Baseline NVMe4201802.4
Optimized Lustre2801203.6

瓶颈分析显示,网络延迟和元数据操作是主要挑战,建议采用RDMA和分层存储。

结论与展望

Storage 2 Checkpointing基准为AI基础设施厂商提供了宝贵洞见,推动存储系统向Exascale训练演进。未来版本将集成更多LLM场景,欢迎社区贡献结果至MLCommons官网。

本文来自 MLC 博客,赢政天下(winzheng.com)进行了全文翻译。 点击这里查看原文 如果转载中文,请注明出处,谢谢支持!