Elo Rating - AI测评 | 嬴政天下

AAAI 2025：LMSYS Org 发布Chatbot Arena最新基准

LMSYS Org 在 AAAI 2025 大会上发布了 Chatbot Arena 的最新基准测试结果。该基准采用 Elo Rating 系统，通过海量用户投票评估了众多大语言模型的表现。Claude 3.5 Sonnet 以 1300+ 的 Elo 分数领跑，紧随其后的是 GPT-4o 和 Gemini 1.5 Pro。报告强调了 SGLang 等优化框架在推理速度上的突破，并分析了开源模型如 Llama 3.1 的强劲崛起。本次更新覆盖了 100+ 模型，数据来源于数百万匿名对战，体现了真实用户偏好。该基准已成为 AI 模型评估的金标准，推动行业透明竞争。（128字）

MLC

DeepSeek Inference 5.1 基准测试全解析

DeepSeek Inference 5.1 是DeepSeek最新发布的推理引擎，在 MLCommons 推理基准中表现出色。该版本针对大模型高效推理进行了优化，支持 SGLang 等框架，显著提升了吞吐量和延迟性能。测试数据显示，在 Llama 3.1 405B 等模型上，DeepSeek Inference 5.1 的性能超越了 vLLM 和 TensorRT-LLM 等竞品，Elo Rating 排名前列。文章详解其关键特性、基准结果及实际部署建议，助力开发者选择最佳推理方案。（128字）