LMSYS / Arena 测评 - AI测评中心

CKAN Croissant：MLCommons AI模型基准新纪元

MLCommons近日发布CKAN Croissant基准，基于Croissant v1.0元数据格式，旨在标准化AI模型评估。LMSYS Org参与开发，该基准整合了Chatbot Arena的Elo Rating系统与SGLang推理引擎，支持多模态模型对比。测试覆盖100+模型，顶级表现者包括GPT-4o（Elo 1300+）和Llama 3.1。关键创新包括自动化模型注册、零样本评估协议及可复现容器化部署，推动开源AI公平竞争。未来将扩展至边缘设备基准。（128字）

MLC

MLCommons发布Ailuminate法语数据集

MLCommons组织近日推出Ailuminate基准的法语数据集版本，进一步扩展多语言大语言模型（LLM）评估框架。该数据集涵盖翻译、阅读理解、常识推理等多项任务，总计超过10万条高质量法语样本，由专业标注团队构建，确保文化适应性和准确性。基准测试显示，顶级模型如GPT-4o在法语任务上Elo Rating达1350分，但本土模型仍有优化空间。此举旨在推动法语AI生态发展，促进全球LLM公平评估。（128字）

MLC

MLPerf Client v0.6基准测试结果发布

MLCommons近日公布了MLPerf Client v0.6基准测试结果，这是首个针对客户端设备（如手机、笔记本）的标准化AI推理基准。新版本引入Llama 2 70B和Stable Diffusion等热门大模型工作负载，涵盖离线、服务器、单流等7种场景。NVIDIA、Qualcomm、MediaTek等厂商提交结果，展示了TensorRT-LLM、Snapdragon等平台的强劲性能。例如，在Llama 2 70B离线场景下，NVIDIA占据领先。结果凸显边缘AI推理的进步，推动移动设备大模型部署。（128字）

MLC

MLPerf Training v5.0：Llama 3.1 405B训练基准创纪录

MLCommons发布了MLPerf Training v5.0基准结果，首次引入Llama 3.1 405B作为大型语言模型训练任务。该基准测试了多家厂商的超级计算系统在训练405B参数模型时的性能。NVIDIA的DGX SuperPOD系统以最快时间完成训练，展示了H100 GPU集群的强大能力。测试采用SGLang框架和8位量化优化，训练至90%准确率仅需数小时。结果突显AI训练效率提升，推动开源大模型标准化。该基准为行业提供了宝贵参考，促进硬件与软件协同优化。（128字）

MLC

NASSCOM 加入 MLCommons 联盟，推动印度 AI 基准发展

MLCommons 宣布印度国家软件与服务公司协会（NASSCOM）正式加入其联盟，成为第 50 个成员组织。这一合作将助力印度 AI 生态系统的发展，推动标准化基准测试如 MLPerf 的应用。NASSCOM 代表超过 3000 家成员企业，总营收超 2000 亿美元，将为 MLCommons 带来印度市场洞察，促进全球 AI 创新与公平竞争。未来，双方将聚焦 AI 训练、推理基准等领域，加速印度 AI 基础设施建设。（128 字）

MLC

AAAI 2025：LMSYS Org 发布Chatbot Arena最新基准

LMSYS Org 在 AAAI 2025 大会上发布了 Chatbot Arena 的最新基准测试结果。该基准采用 Elo Rating 系统，通过海量用户投票评估了众多大语言模型的表现。Claude 3.5 Sonnet 以 1300+ 的 Elo 分数领跑，紧随其后的是 GPT-4o 和 Gemini 1.5 Pro。报告强调了 SGLang 等优化框架在推理速度上的突破，并分析了开源模型如 Llama 3.1 的强劲崛起。本次更新覆盖了 100+ 模型，数据来源于数百万匿名对战，体现了真实用户偏好。该基准已成为 AI 模型评估的金标准，推动行业透明竞争。（128字）

MLC

MLPerf Training v5.0基准测试结果发布

MLCommons近日公布了MLPerf Training v5.0基准测试结果，这是AI训练性能的标准权威评估。此次结果涵盖了多项关键任务，包括BERT、ResNet-50、GPT-3 175B和新增的Llama 3.1 405B等，NVIDIA、Google和AMD等厂商提交了多项记录。NVIDIA H100和H200系统在多个任务中刷新纪录，展示了DGX H100等平台的强劲性能。结果强调了高效训练的重要性，推动AI硬件创新。详细数据见官网，助力行业选择最佳训练解决方案。（128字）

MLC

ATX基准专家面板深度解析

MLCommons近日举办的ATX（Agent Testing eXploration）基准专家面板讨论，由LMSYS Org等机构参与，聚焦AI代理评估的新挑战与机遇。面板探讨了从Chatbot Arena等现有基准向代理任务演进的路径，强调多模态、多步推理和工具使用的重要性。专家们分享了Elo Rating在代理场景的局限性，并展望SGLang等框架的潜力。讨论揭示了标准化测试的紧迫性，以及构建可复现代理基准的未来方向。本文详解面板关键观点，为AI从业者提供洞见。（128字）

MLC

2025 MLC 新星榜单揭晓

MLCommons 发布了 2025 MLC Rising Stars 榜单，表彰在 MLPerf Inference v5.0 基准测试中使用 MLC（ML Compiler）框架提交结果中表现突出的新兴系统。这些新星系统在多种任务如 LLM 推理、图像生成等领域展现出高效性能，涵盖了 NVIDIA、AMD 等厂商的硬件平台。榜单强调 MLC 在优化模型部署方面的潜力，推动开源编译器在生产级 AI 工作负载中的应用。详细结果显示，某些系统在 Llama 3.1 等模型上实现了高吞吐量和低延迟，标志着 AI 硬件生态的快速发展。（128字）

MLC

Ares基准正式发布

MLCommons与LMSYS Org联合宣布Ares开源基准的推出，这是首个针对长上下文多代理推理的标准化评估框架。Ares整合Chatbot Arena的Elo Rating系统，测试模型在复杂任务中的表现，包括工具调用和多轮交互。首批结果显示，GPT-4o和Claude 3.5 Sonnet位居前列，得分超过1400 Elo。新基准采用SGLang优化，支持高效评估大规模模型，推动AI代理标准化发展。该框架开源，欢迎社区贡献，标志着AI评估进入多模态代理时代。（128字）

MLC

MLPerf Mobile Android v4.0 基准测试结果重磅发布

MLCommons 发布了 MLPerf Mobile v4.0 Android 版基准测试结果，这是移动 AI 性能评估的最新标准。此次测试涵盖图像分类、目标检测、超分辨率、语音识别、3D-UNet、BERT Squad 和 Stable Diffusion 等七大任务，涉及 Qualcomm、Samsung、MediaTek 等多家厂商的顶级 Android 设备。结果显示，Qualcomm Snapdragon 8 Gen 3 在多项任务中领跑，Samsung Galaxy S24 Ultra 等旗舰机型表现出色。新版基准引入更真实的场景模拟，推动移动 AI 硬件优化。开发者可通过这些数据评估设备性能，助力边缘 AI 应用落地。（128字）

MLC

MLPerf Client v1.0发布：首款客户端AI推理基准测试结果

MLCommons近日公布MLPerf Client v1.0基准测试结果，这是首个针对移动和边缘设备的AI推理基准，涵盖图像超分辨率、分类、目标检测、语音转文本、聊天机器人和图像生成六大任务。首次引入Llama 3.1 8B Instruct聊天机器人任务，Qualcomm、MediaTek、Samsung等厂商提交结果。测试场景包括Offline、Server、SingleStream和MultipleStream，突出设备端高效推理性能，推动移动AI标准化发展。本轮结果显示Arm Total Design平台在聊天机器人任务中表现出色，标志着客户端AI基准迈入新阶段。（128字）