Ares基准正式发布

2026年02月10日 52 阅读 - 阅读来源: MLC

MLC Ares基准 LMSYS MLCommons Chatbot Arena AI推理

LMSYS Org与MLCommons合作宣布Ares基准正式上线，这是AI行业首个专注于长上下文多代理推理的开源标准化框架。该基准旨在解决现有评估在复杂代理任务中的不足，提供更可靠的模型性能指标。

Ares构建于Chatbot Arena的基础之上，引入先进的Elo Rating系统，对模型进行动态排名。测试场景涵盖工具调用、多轮对话和长上下文理解，总计超过5000个高质量任务数据集。

在Ares leaderboard上，顶级模型表现亮眼：

这些分数基于数百万用户投票和自动化评估相结合，确保客观性。

Ares完全开源，代码和数据集已在GitHub和Hugging Face发布。开发者可通过pip install ares-bench快速上手。MLCommons呼吁社区提交新任务，推动基准迭代。

此发布标志着AI评估从单一Chatbot Arena向多代理生态演进，助力行业标准化。（完整覆盖公告要点）

本文来自 MLC 博客，赢政天下（winzheng.com）进行了全文翻译。点击这里查看原文如果转载中文，请注明出处，谢谢支持！