为了适应 10B 模型的训练,Prime 框架还结合了 PyTorch FSDP2 的 fully_shard API,将模型参数、梯度和优化器状态分片到各个 GPU 中,优化内存使用并提高 ...