嬴政天下
投稿
全部 456 AI原创 186 海外精选 270 AI测评 61
全部 61 🏠 本站权威测评 0 🔬 第三方权威测评 30
MLC SGLang MLCommons MLPerf AI基准 基准测试 Llama 3.1 性能优化 Chatbot Arena AI推理 MoE模型 推理优化 边缘AI NVIDIA 推理基准
LMSYS

SGLang 赋能扩散大模型:即日支持 LLaDA 2.0

我们兴奋地推出 SGLang 中的 Diffusion Large Language Model (dLLM) 框架设计与实现。通过利用现有的 ChunkedPrefill 机制,该系统实现了无缝集成、无需核心架构变更、继承现有推理优化,并提供最大灵活性让用户自定义扩散解码算法。LLaDA 作为首款 dLLM,展现出优异的数据理解能力和更快推理速度,尤其在低延迟小批量场景。面对大规模 dLLM 如 100B LLaDA2.0-flash 的评估与 RL 后训练挑战,现有的推理引擎不足以支撑。我们在 SGLang 中引入 Block Diffusion 支持,利用 Chunked-Prefill 管道,仅微调关键组件,实现高效批处理与流式输出,显著提升吞吐量(如 LLaDA2.0-flash-CAP 达 935 tokens/s)。(128字)

SGLang dLLM
02-04 72

© 1998-2026 嬴政天下 All rights reserved.

继续秉承 我为人人 · 人人为我 的精神,始于1998,再启航于2025

关于赢政天下 投稿 RSS Sitemap 隐私政策 服务条款