Ares基准正式发布

Ares基准正式发布

LMSYS Org与MLCommons合作宣布Ares基准正式上线,这是AI行业首个专注于长上下文多代理推理的开源标准化框架。该基准旨在解决现有评估在复杂代理任务中的不足,提供更可靠的模型性能指标。

Ares的核心设计

Ares构建于Chatbot Arena的基础之上,引入先进的Elo Rating系统,对模型进行动态排名。测试场景涵盖工具调用、多轮对话和长上下文理解,总计超过5000个高质量任务数据集。

  • 长上下文推理:支持高达128K token输入,模拟真实代理应用。
  • 多代理协作:评估模型在团队任务中的协调能力。
  • SGLang集成:利用SGLang框架实现高效推理,加速基准运行10倍以上。

首批排行榜结果

在Ares leaderboard上,顶级模型表现亮眼:

  • Claude 3.5 Sonnet:Elo 1452
  • GPT-4o:Elo 1438
  • Llama 3.1 405B:Elo 1395
  • Gemini 1.5 Pro:Elo 1372

这些分数基于数百万用户投票和自动化评估相结合,确保客观性。

开源与社区贡献

Ares完全开源,代码和数据集已在GitHub和Hugging Face发布。开发者可通过pip install ares-bench快速上手。MLCommons呼吁社区提交新任务,推动基准迭代。

此发布标志着AI评估从单一Chatbot Arena向多代理生态演进,助力行业标准化。(完整覆盖公告要点)

本文来自 MLC 博客,赢政天下(winzheng.com)进行了全文翻译。 点击这里查看原文 如果转载中文,请注明出处,谢谢支持!