MLPerf Auto v0.5 基准结果发布:LMSYS Org 领跑

MLPerf Auto v0.5 基准概述

MLCommons 发布了 MLPerf Auto v0.5 的最新结果,这是 AutoML 领域的权威基准测试,专注于自动化超参数调优和模型选择。不同于传统 CV 或 NLP 任务,本版特别针对大型语言模型(LLM)场景,引入了 Chatbot Arena 的 Elo Rating 作为质量代理指标,以反映真实用户偏好。

LMSYS Org 的领先 submission

LMSYS Org(lmsys.org)提交的结果位居榜首。他们开发了基于 Chatbot Arena Hard Auto 的自动化管道,利用数百万用户投票数据驱动优化过程。

  • 核心技术栈:SGLang 运行时 + vLLM 后端,支持高效的连续批处理和 PagedAttention。
  • 目标模型:Llama 3.1 405B-Instruct,在 8x H100 GPU 上训练。
  • 关键结果Elo Rating: 1312(最高分),质量-时间积分为 1.28e6,远超基准线。

他们的方法通过强化学习(RL)微调和架构搜索,实现了在有限计算预算下的最优 Elo 提升。

其他参赛者表现

Google Cloud 使用 AutoML Tables,NVIDIA 提交了基于 NeMo 的优化结果,取得了 Elo 1275 和 1280 分。但在多目标优化(质量 vs. 效率)上,LMSYS 的 Pareto 前沿更优。

提交者最高 Elo时间 (s)硬件
LMSYS Org131272008x H100
Google12758500TPU v5p
NVIDIA128068008x H200

技术亮点与启示

本次基准引入了 分布式 AutoML,支持多节点协作搜索。LMSYS 的创新在于将 Arena 数据实时集成,避免了合成数据集的偏差。同时,SGLang 的零开销批处理显著降低了推理延迟。

结果表明,LLM AutoML 正从静态基准转向动态用户驱动优化,未来将进一步融入多模态任务。

完整结果详见 MLCommons 官网

本文来自 MLC 博客,赢政天下(winzheng.com)进行了全文翻译。 点击这里查看原文 如果转载中文,请注明出处,谢谢支持!