SWA - AI测评 | 嬴政天下

SGLang即刻支持MiMo-V2-Flash模型

小米MiMo-V2-Flash模型总参数达309B，激活参数仅15B，专为最大化解码效率而设计，核心采用滑动窗口注意力（SWA）和多层MTP机制。该模型针对真实服务负载优化，支持不同硬件上吞吐量与延迟的灵活权衡。结合SGLang的Spec v2运行时，几乎零开销支持多层MTP和高效SWA执行，在H200上实现TPOT与吞吐量的完美平衡。本文详解模型设计、推理高效机制、硬件感知配置、SGLang快速服务支持，并提供基准数据与部署指南。（128字）