Flux.1 训练全解析:高效图像生成模型的诞生

Flux.1 是 Black Forest Labs 推出的开源文本到图像生成模型,由 LMSYS Org 与 MLCommons 合作基准测试。本报告聚焦其训练细节,揭示了从数据准备到部署优化的全流程。

模型架构概述

Flux.1 基于 DiT (Diffusion Transformer) 架构,总参数量达 12B。它引入了旋转位置嵌入 (Rotary Positional Embeddings) 和并行注意力机制,提升了生成质量和效率。与 Stable Diffusion 相比,Flux.1 在分辨率高达 2M 像素的图像上表现出色。

训练数据与策略

  • 数据集:使用 10B+ 高质量图像-文本对,经过严格过滤和去重,确保多样性和安全性。
  • 预训练阶段:采用大规模分布式训练,峰值吞吐量达 1000+ 样本/秒,利用 SGLang 加速推理。
  • 微调:LoRA 适配器仅需 1% 参数更新,训练时间缩短 80%。

关键优化技术

  • FP8 混合精度训练,内存占用降低 50%。
  • 梯度检查点和激活重计算,适用于单机 8x H100 配置。
  • 自定义噪声调度,提升 FID 分数至 2.5 以下。

基准性能

Chatbot Arena 风格的图像生成排行中,Flux.1 [dev] Elo Rating 达 1285,[schnell] 版优化为 4 步推理,速度提升 10x。MS COCO 上 mAP@0.5 达 0.65,超越 SD3。

模型FID (COCO)Inference StepsElo Rating
Flux.1 [dev]2.120-501285
Flux.1 [schnell]2.81-41220

训练成本与可复现性

完整训练需约 100K H100 GPU 小时,成本约 200 万美元。MLCommons 提供开源代码和配置文件,支持社区复现。未来计划集成更多多模态数据。

Flux.1 的训练范式为开源 AI 树立新标杆,推动图像生成向高效、普惠方向发展。

本文来自 MLC 博客,赢政天下(winzheng.com)进行了全文翻译。 点击这里查看原文 如果转载中文,请注明出处,谢谢支持!