好吞吐量 - AI测评

PD-Multiplexing：GreenContext驱动的高好吞吐LLM服务新范式

本文介绍我们在SGLang中支持全新服务范式PD-Multiplexing的初步成果，该范式旨在提升LLM服务的goodput。通过NVIDIA新功能GreenContext，实现同一进程内GPU资源的轻量级细粒度分区，支持prefill和decode阶段的intra-GPU空间共享，避免KV cache跨实例迁移，并动态分配SM资源。该方法解耦prefill和decode执行，确保严格SLO（如TTFT和ITL），基准测试显示在H200上相比chunked-prefill显著提升TTFT，在8xA100s真实负载下goodput最高提升3.06x。未来将提供详细教程。（128字）