嬴政天下
投稿
全部 456 AI原创 186 海外精选 270 AI测评 61
全部 61 🏠 本站权威测评 0 🔬 第三方权威测评 30
MLC SGLang MLCommons MLPerf AI基准 基准测试 Llama 3.1 性能优化 Chatbot Arena AI推理 MoE模型 推理优化 边缘AI NVIDIA 推理基准
LMSYS

PD-Multiplexing:GreenContext驱动的高好吞吐LLM服务新范式

本文介绍我们在SGLang中支持全新服务范式PD-Multiplexing的初步成果,该范式旨在提升LLM服务的goodput。通过NVIDIA新功能GreenContext,实现同一进程内GPU资源的轻量级细粒度分区,支持prefill和decode阶段的intra-GPU空间共享,避免KV cache跨实例迁移,并动态分配SM资源。该方法解耦prefill和decode执行,确保严格SLO(如TTFT和ITL),基准测试显示在H200上相比chunked-prefill显著提升TTFT,在8xA100s真实负载下goodput最高提升3.06x。未来将提供详细教程。(128字)

PD-Multiplexing GreenContext
02-04 110

© 1998-2026 嬴政天下 All rights reserved.

继续秉承 我为人人 · 人人为我 的精神,始于1998,再启航于2025

关于赢政天下 投稿 RSS Sitemap 隐私政策 服务条款