嬴政天下
投稿
全部 558 AI原创 224 海外精选 334 AI测评 64
全部 OpenAI(68) xAI(43) Anthropic(43) 人工智能(40) AI代理(36) LMSYS(36) MLC(33) SGLang(30) Elon Musk(27) AI安全(24) 生成式AI(24) 大语言模型(22) AI伦理(21) 开源AI(20) MLCommons(16)

NVIDIA DGX Spark 深度评测:本地 AI 推理新标杆

NVIDIA DGX Spark 是一款紧凑型一体机,将超级计算级性能带入桌面工作站。通过 NVIDIA 早期访问计划,我们深入测试了这款设备。它搭载 GB10 Grace Blackwell Superchip,提供 128 GB 统一内存,支持 FP4 精度下高达 1 PFLOP 计算力。测试显示,在 SGLang 和 Ollama 框架下,DGX Spark 擅长运行小型模型(如 Llama 3.1 8B),批处理时吞吐量出色;大型模型(如 Llama 3.1 70B)适合原型开发。统一内存设计消除数据传输开销,投机解码可加速 2 倍。尽管内存带宽(273 GB/s)是瓶颈,但其外观精美、散热优秀,适合模型实验、边缘 AI 研究。两台联机可运行 4050 亿参数模型,是开发者理想平台。(128 字)

LMSYS NVIDIA DGX Spark AI推理
344 02-04

SGLang 与 NVIDIA 携手加速 InferenceMAX 基准与 GB200 性能

SGLang 和 NVIDIA 团队紧密合作,针对 NVIDIA Blackwell 架构优化推理性能,利用 FP8 attention、NVFP4 MoE 和 PD-Disaggregated Expert Parallelism 等特性,在 GB200 NVL72 系统上实现 DeepSeek R1 模型的惊人吞吐量:每 GPU 预填充 26k 输入 token/秒,解码 13k 输出 token/秒。在 SemiAnalysis InferenceMAX v1 基准中,Blackwell GPU(GB200/B200)搭配 SGLang 比 Hopper GPU(H100/H200)性能提升高达 4 倍,覆盖整个延迟-吞吐量 Pareto 前沿。SGLang 通过 Prefill-Decode 分离、大规模专家并行等系统级优化,充分发挥 Blackwell 硬件潜力。未来将进一步优化 DeepSeek v3.2 等模型,并加强与 SemiAnalysis 合作。(128 字)

LMSYS SGLang NVIDIA Blackwell
242 02-04

SGLang-Jax:原生TPU推理的开源利器

SGLang-Jax是由SGLang-Jax团队推出的全新开源推理引擎,完全基于Jax和XLA构建。它融合SGLang的高性能服务器架构,利用Jax编译模型前向传播,实现快速原生TPU推理,同时支持连续批处理、前缀缓存、张量并行、专家并行、推测解码、内核融合等高级特性。基准测试显示,其性能匹敌或超越其他TPU推理方案,并在GPU方案中保持竞争力。项目代码开源于GitHub,适用于Google DeepMind、xAI等领先AI实验室的Jax生态。架构纯Jax实现,集成Ragged Paged Attention v3、MoE优化及EAGLE推测解码等关键技术,大幅降低调度开销并提升吞吐量。未来路线图涵盖更多模型支持、量化内核及RL集成。(128字)

LMSYS SGLang-Jax TPU推理
229 02-04

NVIDIA DGX Spark上优化GPT-OSS:释放Spark最大潜力

NVIDIA DGX Spark正式发布一周后,我们与NVIDIA紧密合作,在其上成功部署了GPT-OSS 20B和GPT-OSS 120B模型,支持SGLang框架。性能亮眼:GPT-OSS 20B达到约70 tokens/s,GPT-OSS 120B约50 tokens/s,堪称目前最先进水平,完全支持本地编码代理运行。本文详细指导如何在DGX Spark上运行这些模型、进行性能基准测试、连接Open WebUI聊天界面,甚至通过LMRouter完全本地化运行Claude Code。附带详细基准表格和演示视频,助力用户将DGX Spark打造成强大的本地AI工作站。(128字)

LMSYS NVIDIA DGX Spark GPT-OSS
244 02-04

无免费午餐:MiniMax M2解构高效注意力机制

SGLang宣布首日支持MiniMax全新旗舰模型M2,这是一款紧凑、高速且成本效益高的MoE模型,总参数2300亿、活跃参数仅100亿,专为编码和代理任务打造顶级性能,同时保持强大通用智能。尽管高效注意力机制理论诱人,MiniMax团队在M2开发中最终回归全注意力。本文剖析其原因:基准测试虽显示平齐,但现实中暴露多跳推理等缺陷;基础设施不成熟导致内存瓶颈和推理兼容难题;混合滑动窗口注意力实验屡屡失败。成功需评估、数据与基础设施三管齐下,方能从理论走向生产。(128字)

LMSYS MiniMax M2 高效注意力
234 02-04

SGLang Diffusion:加速视频与图像生成

SGLang Diffusion 将 SGLang 的顶尖性能扩展至扩散模型的图像和视频生成,支持主流开源模型如 Wan、Hunyuan、Qwen-Image、Qwen-Image-Edit 和 Flux。通过 OpenAI 兼容 API、CLI 和 Python 接口,提供 1.2x 至 5.9x 的加速效果。与 FastVideo 团队合作,构建从训练到生产的全生态。架构采用 ComposedPipelineBase 和高级并行技术(如 USP、CFG-parallelism),确保高效灵活。基准测试显示,在 H100/H200 GPU 上显著优于 Hugging Face Diffusers。未来将打造端到端扩散生态。(128字)

LMSYS SGLang Diffusion 扩散模型
212 02-04

🚀 AutoRound 携手 SGLang:高效量化模型推理新纪元

Intel Neural Compressor 团队宣布 AutoRound 与 SGLang 正式合作,支持低比特量化以实现高效 LLM 推理。AutoRound 通过符号梯度优化技术,实现 INT2-INT8 等低比特量化,在 INT2 精度下相对准确率提升高达 2.1 倍,量化 72B 模型仅需 37 分钟。集成后,开发者可直接在 SGLang 运行时部署量化模型,显著降低延迟。该方案支持多种架构、设备和格式,社区下载量超 200 万。未来将优化 MXFP4/NVFP4 和混合比特量化,推动多模态和代理任务部署。(128 字)

LMSYS AutoRound SGLang
210 02-04

Miles发布:点燃大规模MoE训练的企业级RL框架

千里之行,始于足下。今天,RadixArk团队发布了Miles,一个专为大规模MoE训练和生产环境打造的企业级强化学习框架。Miles基于轻量级RL框架slime构建,后者已悄然驱动众多后训练管道和大模型MoE训练(如GLM-4.6)。slime证明了轻量设计的可行性,而Miles则更进一步,提供企业级可靠性和大规模控制。新功能包括真On-Policy支持(KL散度精确为0)、内存优化、在线草稿模型训练(rollout加速25%以上)等。未来将支持GB300硬件、多模态训练和弹性扩展,助力高效可靠的RL训练。(128字)

LMSYS Miles 强化学习
204 02-04

LMSYS博士奖学金计划正式启动

LMSYS欣喜宣布博士奖学金计划正式启动!该计划专为美国全日制博士生设计,针对那些在开源AI基础设施社区做出重大贡献的学生。获奖者将获得高达50,000美元资助,用于未来两年的学费和相关费用。申请期为2025年11月23日至12月7日,评估标准包括研究与开源贡献的影响力,以及与LMSYS兴趣领域的契合度。获奖名单将于截止后几周公布。感兴趣的博士生可将申请声明和简历发送至fellowship@lmsys.org。该计划由Ying and Lianmin Giving Fund捐赠支持,助力开源AI生态发展。(128字)

LMSYS 博士奖学金 开源AI
205 02-04

统一FP8:超越混合精度,实现稳定加速的MoE RL训练

我们实现了RL中全FP8采样和训练流程。实验显示,对于MoE模型,使用BF16训练结合FP8 rollout时,模型越大,训练-推理不一致性越严重。相比之下,统一FP8用于训练和rollout,能有效消除量化误差导致的训练-推理不一致,提升RL训练的速度与稳定性。本文详述FP8硬件基础、格式选择、尺度计算及量化策略,支持Qwen3-4B和Qwen3-30B-A3B的miles框架即插即用,由InfiXAI、Ant Group AQ、SGLang RL和Miles团队联合完成。(128字)

LMSYS FP8 RL训练
211 02-04

从研究到生产:EAGLE-3在Vertex AI加速开源LLM推理2-3倍

推测解码(Speculative Decoding)能显著提升LLM推理速度,但传统方法需额外训练低效的草稿模型。Vertex AI采用EAGLE-3创新方案,仅在目标模型内部层添加轻量级草稿头(仅占2-5%模型大小),简化训练并实现2x-3x解码加速。本文详述从数据清洗、嵌入生成、训练到使用SGLang在Vertex AI大规模部署的完整管道,分享关键挑战与经验教训,包括合成数据管道、离线训练、聊天模板应用、掩码处理及Zero-Overhead Overlap Scheduler优化。基准测试显示,在Llama 4 Scout 17B上,EAGLE-3显著降低TPOT并提升吞吐量。(128字)

LMSYS EAGLE-3 Speculative Decoding
197 02-04

SGLang推理加速:原生集成NVIDIA Model Optimizer,实现无缝量化部署

SGLang最新功能原生支持NVIDIA Model Optimizer量化!这一集成简化了从全精度模型到高性能量化端点的整个优化与部署流程,无需多步工具切换。通过SGLang中的ModelOpt API,只需三步即可完成量化(支持NVFP4、MXFP4、FP8等)、导出与部署。性能表现突出:在NVIDIA B200上,Model Optimizer与SGLang优化可实现比原生FP8高达2倍的单GPU吞吐量。结合Blackwell架构,从DGX Spark到GB300 NVL72均可显著提升延迟降低与内存节省。提供完整示例代码,助力开发者快速上手。(128字)

LMSYS SGLang NVIDIA Model Optimizer
215 02-04

让张量翱翔:R-Fork 加速大模型权重加载

本文介绍 Tensor R-Fork(Tensor Remote Fork),一种创新的权重加载方法,利用高效的跨节点设备间互连,从运行中的 SGLang 实例零拷贝加载张量至新实例。该技术带来三大优势:显著加速权重加载(如 Deepseek-R1 从数分钟缩短至秒级)、消除本地磁盘/DRAM 冗余存储(节省约 600GB)、不干扰推理服务。核心设计基于 GPU-Direct RDMA 构建 P2P 权重存储架构,支持 NCCL 和 TransferEngine 两种后端。性能测试显示,在 8 张 NVIDIA H20 GPU 上加载 Deepseek-R1 模型时间大幅缩短,已实现生产就绪。

LMSYS SGLang Tensor R-Fork
207 02-04

SGLang 当日即支持高效开源 Nemotron 3 Nano 混合 MoE 模型

SGLang 快速集成 NVIDIA 最新发布的 Nemotron 3 Nano 模型,该模型采用混合 Transformer-Mamba 架构与 MoE 设计,总参数 30B、激活参数仅 3.6B,支持 1M 上下文长度。在 NVFP4 精度下,通过 Quantization-Aware Distillation (QAD) 技术保持高准确率,同时在 B200 上实现比 FP8-H100 高 4 倍的吞吐量。模型在编码、科学推理、数学和指令跟随等基准上领先,适用于构建企业级 AI 代理。SGLang 提供即插即用支持,开发者可轻松部署于 RTX Pro 6000、H100 等 GPU。(128 字)

LMSYS SGLang Nemotron 3 Nano
226 02-04

SGLang即刻支持MiMo-V2-Flash模型

小米MiMo-V2-Flash模型总参数达309B,激活参数仅15B,专为最大化解码效率而设计,核心采用滑动窗口注意力(SWA)和多层MTP机制。该模型针对真实服务负载优化,支持不同硬件上吞吐量与延迟的灵活权衡。结合SGLang的Spec v2运行时,几乎零开销支持多层MTP和高效SWA执行,在H200上实现TPOT与吞吐量的完美平衡。本文详解模型设计、推理高效机制、硬件感知配置、SGLang快速服务支持,并提供基准数据与部署指南。(128字)

LMSYS MiMo-V2-Flash SGLang
215 02-04

Mini-SGLang:轻量高效LLM推理引擎全解析

Mini-SGLang是SGLang项目的轻量版推理框架,仅用5k行Python代码,即实现了高性能LLM推理,支持Radix Attention、Chunked Prefill、Overlap Scheduling和Tensor Parallelism等先进特性。它兼容OpenAI API,支持Llama-3和Qwen-3模型,适合学习和研究原型开发。基准测试显示,在H200 GPU上,Mini-SGLang的离线吞吐量超越Nano-vLLM,在线服务延迟与SGLang相当。通过Overlap Scheduling有效隐藏CPU开销,利用FlashAttention-3和FlashInfer内核,确保顶尖性能。该框架提供交互Shell模式、NVTX注解和基准工具,便于调试和比较vLLM、TensorRT-LLM等系统。(128字)

LMSYS Mini-SGLang LLM推理
233 02-04

SGLang 赋能扩散大模型:即日支持 LLaDA 2.0

我们兴奋地推出 SGLang 中的 Diffusion Large Language Model (dLLM) 框架设计与实现。通过利用现有的 ChunkedPrefill 机制,该系统实现了无缝集成、无需核心架构变更、继承现有推理优化,并提供最大灵活性让用户自定义扩散解码算法。LLaDA 作为首款 dLLM,展现出优异的数据理解能力和更快推理速度,尤其在低延迟小批量场景。面对大规模 dLLM 如 100B LLaDA2.0-flash 的评估与 RL 后训练挑战,现有的推理引擎不足以支撑。我们在 SGLang 中引入 Block Diffusion 支持,利用 Chunked-Prefill 管道,仅微调关键组件,实现高效批处理与流式输出,显著提升吞吐量(如 LLaDA2.0-flash-CAP 达 935 tokens/s)。(128字)

LMSYS SGLang dLLM
211 02-04

SpecBundle与SpecForge v0.2:生产级推测解码模型与框架重磅发布

SpecForge团队携手蚂蚁集团、Meituan、Nex-AGI和EigenAI等行业伙伴,推出SpecBundle(Phase 1),这是基于大规模数据集训练的生产级EAGLE3模型检查点集合,旨在提升推测解码的可用性和实际性能,第一阶段聚焦指令微调模型。同时,SpecForge v0.2带来重大系统升级,包括全面重构以提升易用性,并支持多执行后端,进一步增强可扩展性和生产就绪度。该举措解决开源社区中推测解码工具匮乏、高质量草稿模型稀缺以及训练数据规模不足等问题,推动EAGLE3等SOTA方法在本地和企业部署中的广泛应用。(128字)

LMSYS 推测解码 SpecForge
182 02-04

SGLang 中的 EPD 解耦:视觉语言模型弹性编码器扩展

SGLang 引入 Encoder-Prefill-Decode (EPD) 解耦架构,将视觉语言模型 (VLMs) 中的视觉编码与语言处理分离,实现视觉编码容量的独立水平扩展,提升资源利用率。该方案兼容现有的 Prefill-Decode (PD) 解耦,形成三层架构,支持多种传输后端和视觉嵌入缓存。在图像密集场景下,EPD 显著降低 TTFT(首 Token 时间),负载下比同置部署低 6–8 倍;吞吐量提升约 2 倍。但图像稀疏场景可能引入额外网络延迟。基准测试基于 Qwen3-VL-235B,在 8 张 H20 GPU 上验证其在多图像请求中的优势。(128 字)

LMSYS SGLang EPD
228 02-04

单H200部署1TB模型:INT4 QAT RL端到端实践

受Kimi K2团队启发,SGLang RL团队成功实现INT4 Quantization-Aware Training (QAT)全流程。通过训练阶段的fake quantization和推理阶段的真实W4A16量化,实现了与BF16全精度相当的稳定性和训推一致性。极致INT4压缩让约1TB规模模型单节点H200(141GB)部署,避免跨节点通信瓶颈,大幅提升部署效率。本文详解开源生态下完整pipeline的技术细节,提供高性能低成本的实用参考。项目由SGLang RL、InfiXAI、蚂蚁集团Asystem & AQ Infra、slime和RadixArk团队联合完成,已同步至slime和Miles社区。(128字)

LMSYS INT4 QAT 量化感知训练
203 02-04

SGLang优化GLM4-MoE生产部署:TTFT提升65%

Novita AI针对基于SGLang的GLM4-MoE模型开发了一系列生产验证的高效优化策略,涵盖从内核执行到跨节点数据传输的整个推理管道。通过Shared Experts Fusion和Suffix Decoding等技术,在代理编码工作负载下实现了TTFT降低高达65%、TPOT提升22%的显著性能提升。这些优化已在H200集群的TP8和FP8配置上验证,提供高吞吐量与低延迟的生产蓝图。基准测试显示,在输入长度4096、输出1000的场景下,请求率达14 req/s时效果显著。所有优化已部分上游合并,并开源复现脚本。

LMSYS GLM4-MoE SGLang
218 02-04

Firefox即将一键禁用所有AI功能:Mozilla宣布在浏览器设置中添加“阻塞AI开关”

Mozilla宣布Firefox 148将新增‘阻塞AI增强’全局开关,一键禁用浏览器内所有生成式AI特性,包括翻译、PDF图像生成等。该功能源于用户反馈,优先隐私保护,已在X平台引发热议,成为反AI强推的标志性举措。预计2月24日正式发布。

Firefox Mozilla AI隐私
116 02-04
MIT

微生物革命:提取清洁技术所需关键金属

在美国密歇根州上半岛的松林中,美国唯一活跃的镍矿Eagle Mine即将走向寿命终点。正值汽车制造商为电动车电池急需镍之际,该矿镍浓度持续下降,可能很快低到不值得开采。今年早些时候,一项创新研究显示,微生物或许能从低品位矿石或尾矿中高效提取镍,推动清洁技术发展。这不仅缓解供应短缺,还提供更环保的替代方案,标志着生物采矿技术的突破性应用。

生物采矿 镍金属 电动车电池
115 02-04
AIN

FedEx 测试 AI 在包裹追踪与退货管理的极限

FedEx 正利用 AI 革新大企业发货商的包裹追踪和退货流程。对于高货量企业,追踪不再止于仓库出货,而是提供实时更新、灵活交付选项和高效退货,避免支持票据或延误。这种压力推动 FedEx 探索 AI 的边界,帮助企业优化供应链,提升客户满意度。该技术有望重塑物流行业。

FedEx AI物流 包裹追踪
105 02-04
AIN

Apptio:规模化智能自动化为何需财务严谨

Apptio(IBM公司)EMEA区现场CTO Greg Holmes指出,成功扩展智能自动化离不开财务严谨管理。传统‘建好他们就来’的技术采用模式在自动化领域往往导致预算缺口。企业高管常发现,试点项目虽成功,却难以转化为可持续的企业级部署。本文深入剖析这一痛点,探讨如何通过财务工具实现自动化规模化,助力企业数字化转型。

智能自动化 财务管理 Apptio
111 02-04
AIN

SENEN集团CEO:企业AI为何现在该‘务实落地’

在开启AI之旅前,先检查数据状态——数据质量是企业AI沉船的最大隐患。Gartner数据显示,数据质量差每年导致企业平均损失1290万美元。SENEN集团CEO Ronnie Sheth强调,现在是企业AI从炒作出生产落地的关键时刻。他呼吁企业注重数据治理、实用应用,避免资源浪费,推动AI真正创造价值。本文深度剖析企业AI务实路径,结合行业背景与专家观点。

企业AI 数据质量 AI落地
120 02-04
WD

《辐射》制作人诺兰论AI:'我们正处泡沫狂热时刻'

《西部世界》主创乔纳森·诺兰在接受WIRED采访时表示,AI技术将造福新兴电影制作人,帮助他们降低创作门槛,但对好莱坞大片而言,AI难以取代核心创意。他将当前AI热潮比作“泡沫时刻”,强调技术虽强大,却需理性看待。诺兰以自身《辐射》剧集为例,探讨AI在影视行业的双刃剑效应,同时警示好莱坞巨头勿过度依赖AI,以免扼杀人类叙事魅力。(128字)

AI影视 乔纳森·诺兰 好莱坞
128 02-04
MIT

《下载》:老矿榨取更多金属,AI深陷真相危机

本期《下载》聚焦两大科技前沿:在美国密歇根州唯一活跃镍矿即将枯竭之际,微生物技术或能从老矿中高效提取清洁能源所需金属,推动电动车电池等领域的可持续发展。同时,AI模型的‘幻觉’问题日益严峻,生成虚假信息引发信任危机。本新闻通讯剖析这些创新与挑战,揭示科技如何应对资源短缺与信息真实性考验。(128字)

生物采矿 清洁能源金属 AI幻觉
117 02-04
TC

Peak XV:内部分歧致合伙人离职,正加倍押注AI

Peak XV Partners表示,近期多名合伙人离职源于内部意见分歧。公司正调整董事会角色、开设美国办公室,同时继续视印度为其最大市场。尽管面临变动,Peak XV强调将加倍投资AI领域,以抓住全球科技浪潮。该举措反映了风险投资行业在AI热潮下的战略转型,也凸显印度作为新兴市场的重要地位。(128字)

Peak XV AI投资 风险投资
103 02-04
TC

Fitbit创始人推出AI平台Luffu,助力家庭健康守护

Fitbit联合创始人詹姆斯·帕克和埃里克·弗里德曼推出新AI平台Luffu,专为家庭健康监测设计。该平台在后台悄然运行,利用AI收集并整理家庭成员信息,学习日常行为模式,并及时标记异常变化,帮助家庭保持健康同步,及早应对潜在福祉问题。作为可穿戴设备领域的先驱,此举标志着他们从个人健身追踪转向家庭整体健康管理,契合当下AI健康科技浪潮。(128字)

AI健康平台 Fitbit创始人 家庭健康监测
113 02-04
12 13 14 15 16

© 1998-2026 嬴政天下 All rights reserved.

继续秉承 我为人人 · 人人为我 的精神,始于1998,再启航于2025

关于赢政天下 投稿 RSS Sitemap 隐私政策 服务条款