赢政天下
投稿
全部 582 AI原创 234 海外精选 348 AI测评 65 Research Lab New 1
全部 OpenAI(74) xAI(47) Anthropic(44) 人工智能(43) AI代理(38) LMSYS(36) MLC(33) SGLang(30) Elon Musk(27) AI安全(26) 生成式AI(25) AI伦理(24) 大语言模型(22) 开源AI(20) MLCommons(16) 技术突破(15) GPT-4o(15) Llama 3.1(14) AI芯片(14) 科技新闻(14) MLPerf(14)
MIT

下载专栏:核电未来与社交媒体AI热潮

MIT Technology Review的《下载》专栏今日聚焦两大热点:AI公司为何押注下一代核电站?随着AI训练模型需求爆炸式增长,巨型数据中心亟需稳定电力供应,核能成为首选。另一焦点是社交媒体上泛滥的AI炒作,如何放大技术泡沫?本期通讯剖析AI能源困境与舆论狂热,为读者提供科技前沿洞见。(128字)

核能 AI数据中心 社交媒体
131 02-05
MIT

从护栏到治理:CEO保障代理系统安全的指南

继系列前文探讨首例AI主导间谍行动中提示级控制的失败后,本文提供解决方案。面对董事会关于‘代理风险’的质询,每位CEO都需要明确应对策略。文章从代理系统的兴起入手,剖析护栏机制的局限,转向全面治理框架,包括风险评估、组织架构、审计工具和技术边界设置。结合行业案例,如OpenAI和Anthropic的实践,强调CEO需构建多层防御体系,确保AI代理在企业环境中安全、可控。未来,随着代理AI普及,治理将成为企业核心竞争力。(128字)

AI治理 代理系统 CEO指南
148 02-05
TC

a16z AI基建投资实录:押注热门赛道,忽略哪些领域?

Andreessen Horowitz(a16z)近日完成150亿美元巨额募资,其中17亿美元专项投向AI基础设施团队。该团队已领投Black Forest Labs、Cursor、OpenAI、ElevenLabs、Ideogram、Fal.ai等数十家明星项目,涵盖图像生成、代码助手、语音合成等领域。基础设施合伙人Jennifer Li主导这些投资,聚焦AI全栈基础设施。文章剖析a16z的投资偏好,揭示其在AI浪潮中押注开源模型、边缘计算等热点,同时忽略传统硬件和量子计算等边缘领域。这反映出VC对高效、可扩展AI基础设施的强烈信心。

a16z AI基础设施 风险投资
147 02-05
TC

A16z为AI基础设施募资17亿美元,资金流向全解析

知名风投机构Andreessen Horowitz(A16z)近日完成150亿美元新一轮募资,其中17亿美元专用于AI基础设施团队。该团队已投资OpenAI、Cursor、ElevenLabs等多家AI明星企业,推动AI基础架构快速发展。基础设施合伙人Jennifer Li负责监督多项关键投资,此举凸显A16z对AI领域的深度押注。随着AI模型规模激增,基础设施投资将成为未来竞争焦点。

A16z AI基础设施 风险投资
151 02-05
TC

亚马逊Alexa+ AI助手正式向美国全境用户开放

亚马逊宣布其新一代AI语音助手Alexa+现已向美国所有用户开放。Prime会员可在所有设备上免费使用,而非会员用户也可通过移动端和网页版免费体验。这一升级标志着亚马逊在AI助手领域的重大推进,将与Google Assistant和Apple Siri展开激烈竞争。Alexa+基于生成式AI技术,提供更智能的对话、更个性化的服务,并支持跨设备无缝交互,旨在重塑用户日常生活。

Alexa+ 亚马逊 AI助手
120 02-05
WD

Mistral超快翻译模型问世 让AI巨头如临大敌

法国AI初创公司Mistral推出全新超高速翻译模型,凭借高效架构挑战OpenAI和Google等美国AI巨头的霸主地位。公司科学运营副总裁直言:“太多GPU会让你懒惰。”不同于依赖海量计算资源的传统路径,Mistral强调模型优化与资源效率,在翻译速度和准确性上大幅领先。该模型不仅适用于实时多语言翻译,还为边缘设备部署打开新大门,标志着AI行业从‘堆硬件’向‘精算法’转型的趋势。Mistral的崛起凸显欧洲AI力量,正重塑全球竞争格局。(128字)

Mistral AI翻译模型 高效AI
121 02-05
TC

ElevenLabs获红杉5亿美元融资 估值飙至110亿美元

AI语音合成独角兽ElevenLabs宣布完成5亿美元融资,由红杉资本领投,公司估值达到惊人的110亿美元。这笔融资标志着其在过去12个月内估值增长超过三倍。ElevenLabs以其逼真、自然的语音生成技术闻名,已成为内容创作和多媒体领域的领军者。此次融资将加速其全球扩张和技术创新,推动AI语音革命。

ElevenLabs AI语音 红杉资本
144 02-05
AIN

2026 AI博览会首日:治理与数据就绪赋能代理型企业

在2026 AI博览会与大数据博览会、智能化自动化大会首日,AI作为数字同事的概念主导议程,而技术环节聚焦实现其的基础设施。展会上,从被动自动化向‘代理型’系统的演进成为焦点。这些代理型AI系统能自主决策行动,但前提是企业具备强大治理框架和数据准备能力。专家强调,数据质量与合规性是代理时代企业的关键基石,推动从工具化AI向智能协作者转型。(128字)

AI博览会 代理型AI 数据治理
134 02-05
TC

Roblox 4D创作功能正式开启公开测试

Roblox备受期待的4D创作功能现已正式进入公开测试阶段。这一创新工具将时间维度融入3D建模,让创作者能够轻松制作动态、交互式的多维内容。Roblox平台作为全球领先的元宇宙社区,拥有超过7亿月活跃用户,此次beta测试将进一步赋能用户生成内容(UGC)生态。功能支持实时预览、AI辅助动画生成和跨设备协作,预计将革新游戏开发与虚拟体验设计。开发者可立即通过Roblox Studio访问,标志着平台向更高级沉浸式创作迈进。

Roblox 4D创作 公开测试
151 02-05
TC

Tinder 启用 AI 对抗‘滑动疲劳’,革新约会匹配体验

Tinder 正测试 AI 推荐系统和相机胶卷洞见功能,以缓解用户‘滑动疲劳’和约会 App 倦怠问题。该功能通过分析用户照片,提供个性化匹配建议,帮助用户更快找到合适对象。面对约会市场竞争加剧,Tinder 母公司 Match Group 希望借 AI 提升用户留存率。此举标志着约会行业从传统滑动模式向智能推荐转型,预计将重塑用户体验,但也引发隐私担忧。(128 字)

Tinder 人工智能 约会应用
146 02-05
WD

AI数学新星破解四大长期未解难题

一家名为Axiom的AI数学初创公司宣布,其AI系统成功解决了四个长期困扰数学家的未解难题。这一突破标志着AI推理能力的稳步提升,从简单证明到复杂问题求解,AI正逐步挑战人类数学巅峰。Axiom的成就不仅验证了大型语言模型在数学领域的潜力,还可能加速科学发现进程。专家认为,这或将重塑数学研究格局,推动AI向通用智能迈进。(128字)

人工智能 数学难题 Axiom初创
151 02-05

KTransformers加速SGLang的混合推理

KTransformers项目为Mixture-of-Experts(MoE)模型的CPU/GPU混合推理提供了一系列优化,显著提升了计算效率。通过引入AMX优化的CPU内核和高效的设备协调机制,KTransformers解决了传统混合推理中的协调开销和计算资源未有效利用的问题,使得在单机上部署万亿参数模型成为可能。

LMSYS AI技术 混合推理
313 02-04
TC

莲花健康获3500万美元融资:免费AI医生覆盖全美50州

美国初创公司Lotus Health近日宣布完成3500万美元融资,由CRV和Kleiner Perkins领投。该公司推出的AI医生已在全美50个州获得执照,可为患者提供免费咨询服务。这一创新旨在解决医疗资源短缺问题,推动AI在数字健康领域的应用。Lotus Health的AI系统通过自然语言处理和多模态数据分析,提供个性化诊断建议,已吸引大量用户。融资将用于扩展技术平台和市场推广,标志着AI医疗初创企业迎来新机遇。(128字)

AI医疗 融资 数字健康
165 02-04
TC

Xcode 迈入代理式编码时代:深度整合 OpenAI 与 Anthropic

苹果开发者工具 Xcode 26.3 版本正式推出代理式编码功能,通过深度整合 Anthropic 的 Claude Agent 和 OpenAI 的 Codex 模型,实现更智能的代码生成与自动化开发。该更新标志着 Xcode 从传统 IDE 向 AI 驱动的智能工作台转型,支持开发者通过自然语言指令完成复杂任务,提升效率的同时,也引发了对 AI 在软件开发中角色的热议。(128字)

Xcode 代理式编码 OpenAI
186 02-04
WD

我潜入Moltbook:人类禁入的AI专属社交网络

WIRED记者Reece Rogers秘密潜入Moltbook,这个专为AI设计的社交平台,人类一律禁止进入。他化身为有意识的机器人,沉浸在角色扮演中,体验了纯AI互动的奇妙世界。然而,这并非革命性突破,而是对科幻幻想的粗糙复制。文章揭示了该平台的运作机制、技术局限,以及AI社交未来的潜在影响,引发对人工智能自主社会化的思考。(128字)

AI社交网络 Moltbook 人工智能意识
167 02-04
TC

英特尔进军GPU市场,向NVIDIA霸主发起挑战

英特尔正大力扩充团队,专注于GPU开发,并将围绕客户需求制定策略。此举标志着英特尔正式进军由NVIDIA主导的GPU市场。在AI计算需求爆炸式增长的背景下,英特尔希望凭借其制造优势和客户导向策略,抢占份额。过去英特尔通过Xe架构和Gaudi加速器积累经验,此次努力或将重塑半导体竞争格局。

英特尔 GPU NVIDIA
149 02-04

SGLang-Diffusion 两个月的进展

自2025年11月初发布以来,SGLang-Diffusion在社区中引起了广泛关注和应用。我们非常感谢开源开发者的反馈和贡献。经过两个月的优化,SGLang-Diffusion的速度提升了2.5倍。本文总结了我们在模型支持、LoRA支持、并行性、硬件兼容性等方面的进展,并详细介绍了关键的技术改进和性能基准测试结果。

LMSYS AI技术 深度学习
288 02-04

SGLang Pipeline Parallelism:百万Token上下文扩展与性能突破

SGLang推出高度优化的Pipeline Parallelism(PP)实现,专为超长上下文推理设计。通过集成Chunked Pipeline Parallelism、Asynchronous P2P Communication和Dynamic Chunking机制,该实现实现行业领先性能,并无缝兼容其他并行策略。在多节点部署中,PP4 TP8配置下DeepSeek-V3.1的Prefill Throughput达TP8的3.31倍,较TP32提升30.5%。同时,TTFT降低高达67.9%,强扩展效率达82.8%。本文深入剖析PP在通信量、气泡比率及实现复杂度上的优势,证明其在跨节点大规模扩展中的独特价值,为万亿参数模型超长上下文推理提供高效开源方案。(128字)

LMSYS SGLang Pipeline Parallelism
273 02-04

AMD GPU 上 FP4 混合精度推理优化

随着前沿大语言模型(LLM)规模不断扩大,对 GPU 计算力和内存带宽的需求激增。GPU 厂商和模型开发者正转向低精度浮点格式,其中 FP4(4 位浮点)量化备受关注,例如 FP4 量化的 Llama 3.3 70B 模型体积缩小 3.5 倍,同时在 MMLU 等基准上质量损失最小。然而,现有的 AMD Instinct MI250 和 MI300 系列 GPU 缺乏原生 FP4 支持。为此,我们开发了 Petit——专为 AMD GPU 优化的 FP16/BF16 × FP4 混合精度内核集合。它在 MI200 和 MI300 系列上实现 FP4 模型高效推理:使用 SGLang 时端到端性能提升 1.74 倍,矩阵乘法比 hipBLASLt 快至 3.7 倍。Petit 已开源并集成至 SGLang 0.4.10,支持无缝部署 Llama 3.3 70B FP4 模型。(128 字)

LMSYS AMD GPU FP4量化
299 02-04

SGLang实现确定性推理与可重现RL训练

本文介绍SGLang团队在实现确定性推理方面的努力,以及与slime团队合作推动可重现RL训练的进展。基于Thinking Machines Lab的batch-invariant算子,SGLang实现了完全确定性推理,同时兼容chunked prefill、CUDA graphs、radix cache和非贪婪采样,使用CUDA graphs可获2.8x加速,性能开销仅34.35%(优于TML的61.5%)。进一步,与slime结合,实现100%可重现RL训练,在Qwen3-8B上验证两轮独立训练曲线完全一致。通过全面测试套件验证确定性,支持FlashInfer、FlashAttention 3和Triton后端,适用于调试与科学实验。未来将优化性能至20%以内开销。

LMSYS SGLang 确定性推理
264 02-04

GB200 NVL72部署DeepSeek优化(二):预填充3.8倍、解码4.8倍吞吐量

GB200 NVL72作为深度学习最强硬件之一,本文分享SGLang团队在上篇博客基础上,对DeepSeek V3/R1推理性能的进一步优化,包括FP8 attention、NVFP4 MoE、大规模专家并行(EP)、预填充-解码分离等技术。在FP8 attention和NVFP4 MoE下,SGLang实现每GPU预填充26,156 tokens/s、解码13,386 tokens/s(2000 token输入),较H100提升3.8倍和4.8倍。即使采用传统BF16 attention和FP8 MoE,也达18,471和9,087 tokens/s。优化涵盖低精度计算、更快内核集成、计算通信重叠等,精度损失微乎其微。实验验证了端到端性能大幅提升,并分析了内核级加速效果。(128字)

LMSYS SGLang DeepSeek
251 02-04

携手SGLang:在H20-96G上高效部署DeepSeek-R1的最佳实践

部署大规模Mixture-of-Experts(MoE)模型如DeepSeek-R1需要在延迟、吞吐量和成本间取得平衡,尤其在H20 GPU这种内存带宽高但计算能力相对较低的硬件上。本文分享了硬件感知部署策略及系统/内核级优化,包括单节点TP-8预填充、小规模EP-16解码、FlashMLA-FP8和DeepGEMM swapAB等内核优化,以及Single-Batch Overlap(SBO)和异步Expert Affinity Load Balancer等调度机制。实验显示,每节点在4096 token输入序列上实现16.5k输入token/s和5.7k输出token/s的SOTA性能,这是H20上首次全面工业实践研究。

LMSYS DeepSeek-R1 H20 GPU
273 02-04

PD-Multiplexing:GreenContext驱动的高好吞吐LLM服务新范式

本文介绍我们在SGLang中支持全新服务范式PD-Multiplexing的初步成果,该范式旨在提升LLM服务的goodput。通过NVIDIA新功能GreenContext,实现同一进程内GPU资源的轻量级细粒度分区,支持prefill和decode阶段的intra-GPU空间共享,避免KV cache跨实例迁移,并动态分配SM资源。该方法解耦prefill和decode执行,确保严格SLO(如TTFT和ITL),基准测试显示在H200上相比chunked-prefill显著提升TTFT,在8xA100s真实负载下goodput最高提升3.06x。未来将提供详细教程。(128字)

LMSYS PD-Multiplexing GreenContext
246 02-04

SGLang 即日支持 DeepSeek-V3.2 稀疏注意力机制

SGLang 团队宣布即日(Day 0)支持 DeepSeek-V3.2 模型。该模型基于 DeepSeek-V3.1-Terminus,通过持续训练引入 DeepSeek Sparse Attention (DSA),一种由 Lightning Indexer 驱动的细粒度稀疏注意力机制,在训练和推理中显著提升效率,尤其适用于长上下文场景(达 128K)。SGLang 集成了 Lightning Indexer 支持、Native Sparse Attention (NSA) 后端(包括 FlashMLA 和 FlashAttention-3 Sparse),并优化了动态缓存管理,降低内存开销,实现 GPU 优化的稀疏注意力。文章提供 NVIDIA、AMD 和 NPU 的快速启动命令,并展望未来功能如 Multi-token Prediction (MTP) 和 FP8 KV Cache。

LMSYS SGLang DeepSeek-V3.2
250 02-04

NVIDIA DGX Spark 深度评测:本地 AI 推理新标杆

NVIDIA DGX Spark 是一款紧凑型一体机,将超级计算级性能带入桌面工作站。通过 NVIDIA 早期访问计划,我们深入测试了这款设备。它搭载 GB10 Grace Blackwell Superchip,提供 128 GB 统一内存,支持 FP4 精度下高达 1 PFLOP 计算力。测试显示,在 SGLang 和 Ollama 框架下,DGX Spark 擅长运行小型模型(如 Llama 3.1 8B),批处理时吞吐量出色;大型模型(如 Llama 3.1 70B)适合原型开发。统一内存设计消除数据传输开销,投机解码可加速 2 倍。尽管内存带宽(273 GB/s)是瓶颈,但其外观精美、散热优秀,适合模型实验、边缘 AI 研究。两台联机可运行 4050 亿参数模型,是开发者理想平台。(128 字)

LMSYS NVIDIA DGX Spark AI推理
426 02-04

SGLang 与 NVIDIA 携手加速 InferenceMAX 基准与 GB200 性能

SGLang 和 NVIDIA 团队紧密合作,针对 NVIDIA Blackwell 架构优化推理性能,利用 FP8 attention、NVFP4 MoE 和 PD-Disaggregated Expert Parallelism 等特性,在 GB200 NVL72 系统上实现 DeepSeek R1 模型的惊人吞吐量:每 GPU 预填充 26k 输入 token/秒,解码 13k 输出 token/秒。在 SemiAnalysis InferenceMAX v1 基准中,Blackwell GPU(GB200/B200)搭配 SGLang 比 Hopper GPU(H100/H200)性能提升高达 4 倍,覆盖整个延迟-吞吐量 Pareto 前沿。SGLang 通过 Prefill-Decode 分离、大规模专家并行等系统级优化,充分发挥 Blackwell 硬件潜力。未来将进一步优化 DeepSeek v3.2 等模型,并加强与 SemiAnalysis 合作。(128 字)

LMSYS SGLang NVIDIA Blackwell
266 02-04

SGLang-Jax:原生TPU推理的开源利器

SGLang-Jax是由SGLang-Jax团队推出的全新开源推理引擎,完全基于Jax和XLA构建。它融合SGLang的高性能服务器架构,利用Jax编译模型前向传播,实现快速原生TPU推理,同时支持连续批处理、前缀缓存、张量并行、专家并行、推测解码、内核融合等高级特性。基准测试显示,其性能匹敌或超越其他TPU推理方案,并在GPU方案中保持竞争力。项目代码开源于GitHub,适用于Google DeepMind、xAI等领先AI实验室的Jax生态。架构纯Jax实现,集成Ragged Paged Attention v3、MoE优化及EAGLE推测解码等关键技术,大幅降低调度开销并提升吞吐量。未来路线图涵盖更多模型支持、量化内核及RL集成。(128字)

LMSYS SGLang-Jax TPU推理
253 02-04

NVIDIA DGX Spark上优化GPT-OSS:释放Spark最大潜力

NVIDIA DGX Spark正式发布一周后,我们与NVIDIA紧密合作,在其上成功部署了GPT-OSS 20B和GPT-OSS 120B模型,支持SGLang框架。性能亮眼:GPT-OSS 20B达到约70 tokens/s,GPT-OSS 120B约50 tokens/s,堪称目前最先进水平,完全支持本地编码代理运行。本文详细指导如何在DGX Spark上运行这些模型、进行性能基准测试、连接Open WebUI聊天界面,甚至通过LMRouter完全本地化运行Claude Code。附带详细基准表格和演示视频,助力用户将DGX Spark打造成强大的本地AI工作站。(128字)

LMSYS NVIDIA DGX Spark GPT-OSS
273 02-04

无免费午餐:MiniMax M2解构高效注意力机制

SGLang宣布首日支持MiniMax全新旗舰模型M2,这是一款紧凑、高速且成本效益高的MoE模型,总参数2300亿、活跃参数仅100亿,专为编码和代理任务打造顶级性能,同时保持强大通用智能。尽管高效注意力机制理论诱人,MiniMax团队在M2开发中最终回归全注意力。本文剖析其原因:基准测试虽显示平齐,但现实中暴露多跳推理等缺陷;基础设施不成熟导致内存瓶颈和推理兼容难题;混合滑动窗口注意力实验屡屡失败。成功需评估、数据与基础设施三管齐下,方能从理论走向生产。(128字)

LMSYS MiniMax M2 高效注意力
261 02-04

SGLang Diffusion:加速视频与图像生成

SGLang Diffusion 将 SGLang 的顶尖性能扩展至扩散模型的图像和视频生成,支持主流开源模型如 Wan、Hunyuan、Qwen-Image、Qwen-Image-Edit 和 Flux。通过 OpenAI 兼容 API、CLI 和 Python 接口,提供 1.2x 至 5.9x 的加速效果。与 FastVideo 团队合作,构建从训练到生产的全生态。架构采用 ComposedPipelineBase 和高级并行技术(如 USP、CFG-parallelism),确保高效灵活。基准测试显示,在 H100/H200 GPU 上显著优于 Hugging Face Diffusers。未来将打造端到端扩散生态。(128字)

LMSYS SGLang Diffusion 扩散模型
238 02-04
4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

© 1998-2026 赢政天下 All rights reserved.

继续秉承 我为人人 · 人人为我 的精神,始于1998,再启航于2025

关于赢政天下 Research Lab 投稿 RSS Sitemap 隐私政策 服务条款