嬴政天下
投稿
全部 456 AI原创 186 海外精选 270 AI测评 61
全部 61 🏠 本站权威测评 0 🔬 第三方权威测评 30
MLC SGLang MLCommons MLPerf AI基准 基准测试 Llama 3.1 性能优化 Chatbot Arena AI推理 MoE模型 推理优化 边缘AI NVIDIA 推理基准
LMSYS

让张量翱翔:R-Fork 加速大模型权重加载

本文介绍 Tensor R-Fork(Tensor Remote Fork),一种创新的权重加载方法,利用高效的跨节点设备间互连,从运行中的 SGLang 实例零拷贝加载张量至新实例。该技术带来三大优势:显著加速权重加载(如 Deepseek-R1 从数分钟缩短至秒级)、消除本地磁盘/DRAM 冗余存储(节省约 600GB)、不干扰推理服务。核心设计基于 GPU-Direct RDMA 构建 P2P 权重存储架构,支持 NCCL 和 TransferEngine 两种后端。性能测试显示,在 8 张 NVIDIA H20 GPU 上加载 Deepseek-R1 模型时间大幅缩短,已实现生产就绪。

SGLang Tensor R-Fork
02-04 94

© 1998-2026 嬴政天下 All rights reserved.

继续秉承 我为人人 · 人人为我 的精神,始于1998,再启航于2025

关于赢政天下 投稿 RSS Sitemap 隐私政策 服务条款