AI原创资讯 | 嬴政天下

SpecBundle与SpecForge v0.2：生产级推测解码模型与框架重磅发布

SpecForge团队携手蚂蚁集团、Meituan、Nex-AGI和EigenAI等行业伙伴，推出SpecBundle（Phase 1），这是基于大规模数据集训练的生产级EAGLE3模型检查点集合，旨在提升推测解码的可用性和实际性能，第一阶段聚焦指令微调模型。同时，SpecForge v0.2带来重大系统升级，包括全面重构以提升易用性，并支持多执行后端，进一步增强可扩展性和生产就绪度。该举措解决开源社区中推测解码工具匮乏、高质量草稿模型稀缺以及训练数据规模不足等问题，推动EAGLE3等SOTA方法在本地和企业部署中的广泛应用。（128字）

SGLang 中的 EPD 解耦：视觉语言模型弹性编码器扩展

SGLang 引入 Encoder-Prefill-Decode (EPD) 解耦架构，将视觉语言模型 (VLMs) 中的视觉编码与语言处理分离，实现视觉编码容量的独立水平扩展，提升资源利用率。该方案兼容现有的 Prefill-Decode (PD) 解耦，形成三层架构，支持多种传输后端和视觉嵌入缓存。在图像密集场景下，EPD 显著降低 TTFT（首 Token 时间），负载下比同置部署低 6–8 倍；吞吐量提升约 2 倍。但图像稀疏场景可能引入额外网络延迟。基准测试基于 Qwen3-VL-235B，在 8 张 H20 GPU 上验证其在多图像请求中的优势。（128 字）

单H200部署1TB模型：INT4 QAT RL端到端实践

受Kimi K2团队启发，SGLang RL团队成功实现INT4 Quantization-Aware Training (QAT)全流程。通过训练阶段的fake quantization和推理阶段的真实W4A16量化，实现了与BF16全精度相当的稳定性和训推一致性。极致INT4压缩让约1TB规模模型单节点H200（141GB）部署，避免跨节点通信瓶颈，大幅提升部署效率。本文详解开源生态下完整pipeline的技术细节，提供高性能低成本的实用参考。项目由SGLang RL、InfiXAI、蚂蚁集团Asystem & AQ Infra、slime和RadixArk团队联合完成，已同步至slime和Miles社区。（128字）

SGLang优化GLM4-MoE生产部署：TTFT提升65%

Novita AI针对基于SGLang的GLM4-MoE模型开发了一系列生产验证的高效优化策略，涵盖从内核执行到跨节点数据传输的整个推理管道。通过Shared Experts Fusion和Suffix Decoding等技术，在代理编码工作负载下实现了TTFT降低高达65%、TPOT提升22%的显著性能提升。这些优化已在H200集群的TP8和FP8配置上验证，提供高吞吐量与低延迟的生产蓝图。基准测试显示，在输入长度4096、输出1000的场景下，请求率达14 req/s时效果显著。所有优化已部分上游合并，并开源复现脚本。

SpecBundle与SpecForge v0.2：生产级推测解码模型与框架重磅发布

SGLang 中的 EPD 解耦：视觉语言模型弹性编码器扩展

单H200部署1TB模型：INT4 QAT RL端到端实践

SGLang优化GLM4-MoE生产部署：TTFT提升65%

Firefox即将一键禁用所有AI功能：Mozilla宣布在浏览器设置中添加“阻塞AI开关”

AI助力教育变革：中国市场迎来智能学习新纪元

AI时代的伦理考验：数据隐私与道德边界的博弈

Karpathy新作nanochat：百元级训练GPT-2模型，AI开源再掀波澜

Claude-Mem：Claude Code持久记忆插件爆火GitHub，开发者痛点终获解决

NVIDIA Blackwell B200芯片订单爆满，交付延期至2025年引发供应链热议

Claude 3.5 Sonnet编码测试破90%：AI编程能力逼近人类水平

Google Gemini 2.0 Flash正式发布：轻量高速多模态AI模型重塑实时应用

AI深度伪造视频泛滥X平台：美国大选诚信面临严峻考验

DeepSeek-V2中文能力超GPT-4o：中国开源AI高效新突破

马斯克重磅警示：AI发展过快，安全监管刻不容缓

Meta Llama 3.2轻量模型登场：边缘设备AI视觉新时代开启

OpenAI o1模型数学推理突破：ARC-AGI基准达83%，开启AI推理新时代

xAI Grok-2图像生成功能上线：Flux.1模型加持，媲美Midjourney引发热议

NVIDIA Blackwell B200芯片订单爆满，交付延期至2025年

Claude 3.5 Sonnet 编码测试SWE-bench超90%，AI编程能力迈向人类级别

Google Gemini 2.0 Flash正式发布：轻量高速多模态AI模型引爆开发者热潮

AI深度伪造视频泛滥X平台：美国大选诚信警钟长鸣

DeepSeek-V2中文基准超GPT-4o：中国开源AI高效突破

马斯克再敲警钟：AI发展过快，安全措施严重滞后

Meta Llama 3.2轻量模型发布：边缘设备AI应用迎来新突破

OpenAI o1模型数学推理突破：ARC-AGI得分83%，开启AI推理时代

xAI Grok-2图像生成功能正式上线：Flux.1模型驱动，媲美Midjourney的免费利器

欧盟AI法案正式生效：分级监管引发创新与合规之争

DeepSeek-V2中文基准测试领先Llama3，成本仅1/10引发热议

Meta Llama 3.1 405B开源发布：开源AI性能逼近闭源巅峰