嬴政天下
投稿
全部 456 AI原创 186 海外精选 270 AI测评 61
全部 61 🏠 本站权威测评 0 🔬 第三方权威测评 30
MLC SGLang MLCommons MLPerf AI基准 基准测试 Llama 3.1 性能优化 Chatbot Arena AI推理 MoE模型 推理优化 边缘AI NVIDIA 推理基准
MLC

MLPerf Training v5.0:Llama 3.1 405B训练基准创纪录

MLCommons发布了MLPerf Training v5.0基准结果,首次引入Llama 3.1 405B作为大型语言模型训练任务。该基准测试了多家厂商的超级计算系统在训练405B参数模型时的性能。NVIDIA的DGX SuperPOD系统以最快时间完成训练,展示了H100 GPU集群的强大能力。测试采用SGLang框架和8位量化优化,训练至90%准确率仅需数小时。结果突显AI训练效率提升,推动开源大模型标准化。该基准为行业提供了宝贵参考,促进硬件与软件协同优化。(128字)

MLC Llama 3.1 MLPerf
02-10 78
MLC

AAAI 2025:LMSYS Org 发布Chatbot Arena最新基准

LMSYS Org 在 AAAI 2025 大会上发布了 Chatbot Arena 的最新基准测试结果。该基准采用 Elo Rating 系统,通过海量用户投票评估了众多大语言模型的表现。Claude 3.5 Sonnet 以 1300+ 的 Elo 分数领跑,紧随其后的是 GPT-4o 和 Gemini 1.5 Pro。报告强调了 SGLang 等优化框架在推理速度上的突破,并分析了开源模型如 Llama 3.1 的强劲崛起。本次更新覆盖了 100+ 模型,数据来源于数百万匿名对战,体现了真实用户偏好。该基准已成为 AI 模型评估的金标准,推动行业透明竞争。(128字)

MLC AAAI 2025 Chatbot Arena
02-10 187
MLC

MLPerf Auto v0.5 基准结果发布:LMSYS Org 领跑

MLCommons 近日公布 MLPerf Auto v0.5 基准测试结果,这是针对自动化机器学习(AutoML)的最新标准。LMSYS Org 凭借创新方法脱颖而出,使用 Chatbot Arena 的 Elo Rating 作为核心质量指标,在 LLM 优化任务中取得最高分。他们采用 SGLang 运行时和 vLLM,针对 Llama 3.1 405B 等模型进行高效自动化调优,实现 Elo 分数超过 1300。结果凸显了实时用户偏好数据在 AutoML 中的潜力,同时展示了多节点分布式训练的性能。其他参赛者如 Google、NVIDIA 等也提交了结果,但 LMSYS 在质量-效率权衡上领先。本次基准强调了 LLM 时代 AutoML 的新挑战与机遇。(128字)

MLC MLPerf AutoML
02-10 69
MLC

DeepSeek Inference 5.1 基准测试全解析

DeepSeek Inference 5.1 是DeepSeek最新发布的推理引擎,在 MLCommons 推理基准中表现出色。该版本针对大模型高效推理进行了优化,支持 SGLang 等框架,显著提升了吞吐量和延迟性能。测试数据显示,在 Llama 3.1 405B 等模型上,DeepSeek Inference 5.1 的性能超越了 vLLM 和 TensorRT-LLM 等竞品,Elo Rating 排名前列。文章详解其关键特性、基准结果及实际部署建议,助力开发者选择最佳推理方案。(128字)

MLC DeepSeek 推理引擎
02-10 69
MLC

ISO-AUS:MLCommons发布新一代AI推理基准

MLCommons与LMSYS Org合作推出ISO-AUS基准测试,这是首个针对AI模型隔离推理优化的标准化框架。ISO-AUS聚焦于高负载下的模型隔离性能、资源利用率和延迟控制,涵盖从边缘设备到云端服务器的多种场景。测试结果显示,领先模型如GPT-4o在Elo Rating上领先,但开源模型Llama 3.1在SGLang框架下表现出色,资源效率提升30%。该基准强调实际部署中的安全性与可扩展性,为AI行业提供可靠的性能评估标准。未来将定期更新,支持更多硬件平台。(128字)

MLC ISO-AUS AI基准
02-10 63

© 1998-2026 嬴政天下 All rights reserved.

继续秉承 我为人人 · 人人为我 的精神,始于1998,再启航于2025

关于赢政天下 投稿 RSS Sitemap 隐私政策 服务条款