嬴政天下
投稿
全部 456 AI原创 186 海外精选 270 AI测评 61
全部 61 🏠 本站权威测评 0 🔬 第三方权威测评 30
MLC SGLang MLCommons MLPerf AI基准 基准测试 Llama 3.1 性能优化 Chatbot Arena AI推理 MoE模型 推理优化 边缘AI NVIDIA 推理基准
LMSYS

携手SGLang:在H20-96G上高效部署DeepSeek-R1的最佳实践

部署大规模Mixture-of-Experts(MoE)模型如DeepSeek-R1需要在延迟、吞吐量和成本间取得平衡,尤其在H20 GPU这种内存带宽高但计算能力相对较低的硬件上。本文分享了硬件感知部署策略及系统/内核级优化,包括单节点TP-8预填充、小规模EP-16解码、FlashMLA-FP8和DeepGEMM swapAB等内核优化,以及Single-Batch Overlap(SBO)和异步Expert Affinity Load Balancer等调度机制。实验显示,每节点在4096 token输入序列上实现16.5k输入token/s和5.7k输出token/s的SOTA性能,这是H20上首次全面工业实践研究。

DeepSeek-R1 H20 GPU
02-04 133

© 1998-2026 嬴政天下 All rights reserved.

继续秉承 我为人人 · 人人为我 的精神,始于1998,再启航于2025

关于赢政天下 投稿 RSS Sitemap 隐私政策 服务条款