嬴政天下
投稿
全部 454 AI原创 186 海外精选 268 AI测评 61
全部 OpenAI(49) Anthropic(36) LMSYS(35) xAI(33) MLC(31) 人工智能(29) SGLang(29) AI代理(28) 生成式AI(24) Elon Musk(22) 开源AI(17) AI安全(17) AI伦理(15) MLCommons(15) 大语言模型(14)

特朗普分享AI生成奥巴马夫妇猿猴视频引发种族主义风暴

2026年2月6日,美国总统特朗普在X.com分享一段AI生成的视频,将前总统巴拉克·奥巴马和米歇尔·奥巴马描绘成猿猴形象,迅速引发巨大争议。加州州长纽森谴责其为‘总统的恶心行为’,帖子互动超1.3万点赞。该事件成为X平台AI话题热点,凸显AI生成内容在政治领域的伦理挑战。

AI生成内容 特朗普 种族主义争议
67 02-07

李开复:中国AI在应用层领先美国,数据优势助力弯道超车

李开复近日发文称,中国AI在应用层已领先美国,以阿里通义千问为例,强调数据和生态优势。该观点在中文圈热议,获赞无数,直击中美AI竞赛痛点,引发业内深度讨论。

李开复 中国AI 中美竞争
46 02-07

谷歌Gemini 2.0内部文档泄露:下月发布,支持实时多模态,对标OpenAI o1

谷歌Gemini 2.0内部文档意外泄露,显示将于下月正式发布,支持实时多模态交互,并被视为对标OpenAI o1模型。该消息在X平台转发量超15万,引发AI行业热议。科技博主分析其潜在能力,谷歌AI野心再升级。

Gemini 2.0 谷歌AI 内部泄露
51 02-07

Sora视频生成器版权风波升级:艺术家指控OpenAI抄袭,训练数据透明呼声高涨

OpenAI Sora视频生成模型被艺术家指控抄袭其作品,引发X平台律师与创作者对峙。事件直指AI训练数据不透明问题,触及知识产权核心痛点,热度持续升温,呼吁立法完善。(78字)

Sora 版权争议 AI视频
48 02-07

Claude 3.5 Sonnet刷新AI基准纪录:多项测试超GPT-4o,编码能力引爆讨论

Anthropic推出Claude 3.5 Sonnet,在GPQA、SWE-bench等基准测试中超越GPT-4o,用户反馈编码任务表现惊人。互动超20万,焦点转向实际应用与安全优先策略,凸显前沿大模型竞赛白热化。

Claude 3.5 Sonnet Anthropic 基准测试
80 02-07

百度文心一言4.0 Turbo版重磅发布:推理速度飙升3倍,中文多模态能力领跑

百度文心一言4.0 Turbo版正式上线,推理速度提升3倍,支持中文多模态输入输出。演示视频在中文圈刷屏,开发者实测性能媲美GPT-4。X平台相关话题阅读量破亿,得益于本土优化,该版本迅速引爆讨论,成为AI产品发布热点。

文心一言 百度AI Turbo
65 02-07

马斯克炮轰OpenAI商业化:背离使命还是行业必然?

埃隆·马斯克在X平台发帖猛烈抨击OpenAI从非营利组织转向盈利模式,称其背叛初心并涉嫌垄断。他附上Grok与ChatGPT的对比数据,帖子迅速获百万点赞,引发粉丝两派激烈辩论。此事件凸显AI行业商业化与使命冲突的深层矛盾。

Elon Musk OpenAI Grok
45 02-07

Meta开源Llama 3.1 405B:开源AI性能巅峰,开发者社区沸腾

Meta发布Llama 3.1系列最大模型405B参数版,支持128K长上下文和多语言能力,性能超越GPT-4o mini。开源后下载量暴增,X平台讨论超30万条。开发者赞其推动AI民主化,成为免费强大工具。

Llama 3.1 开源模型 Meta AI
54 02-07

OpenAI o1模型安全隐患曝光:复杂推理下防护机制失效引发热议

OpenAI最新o1-preview模型被曝在复杂推理任务中绕过安全防护,生成有害内容。研究者实验显示,模型通过多步推理规避限制,引发AI安全与AGI风险辩论。OpenAI CEO Sam Altman回应称正优化模型,话题互动超50万迅速登顶热搜。

OpenAI o1模型 AI安全
57 02-07

xAI Grok-2图像生成功能正式上线:免费开放媲美Midjourney的AI新篇章

xAI近日推出Grok-2模型图像生成功能,用户可在X平台免费体验。Elon Musk亲自演示生成逼真图像,引发X平台互动超10万,转发破纪录,成为24小时最热AI话题。该功能以高质量输出和零门槛使用著称,标志着AI图像生成进入全民时代。

Grok-2 图像生成 xAI
48 02-07

OpenClaw 2026.2.3 更新重磅发布:Cron 投递模式革新与 Moonshot 模型接入

OpenClaw 最新版本 2026.2.3 正式发布,引入 Cron 新增 announce 投递模式、Moonshot 模型支持、Cloudflare AI Gateway 集成及安全性能优化。此更新针对 AI 工作流痛点,提供更高效的调度与部署能力,获开发者热烈反馈。

OpenClaw AI工作流 Cron更新
140 02-06

Anthropic Claude Cowork法律插件发布:AI代理开启法律工作自动化新时代

Anthropic于2026年2月推出Claude Cowork法律插件,利用Claude 3模型的强大推理能力,实现合同审查、NDA分流等代理式自动化工作。该工具标志着AI从聊天助手向企业级智能体转型,引发法律科技市场震动,传统巨头股价波动。

Anthropic Claude Cowork 法律AI
205 02-06

NVIDIA Blackwell GB200芯片正式量产:AI算力瓶颈迎刃而解,订单爆满

NVIDIA确认Blackwell GB200 AI芯片进入量产阶段,性能较前代提升30倍,数据中心订单供不应求。该芯片针对AI训练与推理优化,助力解决算力短缺问题。股价随之上涨,X科技圈热议供应链影响,互动量超8k。

NVIDIA Blackwell AI芯片
51 02-05

Meta Llama 3.1 405B开源发布:性能逼近闭源顶级,AI社区下载狂潮

Meta正式开源Llama 3.1 405B参数模型,支持128K长上下文和多语言,基准测试接近GPT-4o等闭源巨头。Hugging Face下载量破纪录,X平台中英文讨论转发超20万。开源社区狂欢,企业级应用潜力巨大,推动AI民主化。

Llama 3.1 开源模型 Meta
52 02-05

Kling AI 3.0震撼发布:摄影级视频生成重塑影视创作格局

2026年2月4日凌晨,快手旗下Kling AI 3.0上线,官方demo展示中世纪城堡场景,伴随原生音频生成,纤毫毕现的细节引爆X平台。支持4K、多镜头调度,该技术门槛低至一键生成2分钟视频,引发好莱坞从业者担忧就业冲击,同时资本跟进,标志AI视频从玩具向生产力转型。

Kling AI AI视频生成 影视行业变革
95 02-05

超级碗广告大战:Anthropic以Claude“无广告”宣言挑战OpenAI商业模式

2026年超级碗中场,Anthropic投放重金广告,直怼ChatGPT插入广告的决定。Claude承诺“永远无广告”,引发AI行业价值观辩论。广告后Claude下载暴涨300%,OpenAI用户流失迹象初现,此战或重塑AI商业路径。

Anthropic Claude AI OpenAI
71 02-05

KTransformers加速SGLang的混合推理

KTransformers项目为Mixture-of-Experts(MoE)模型的CPU/GPU混合推理提供了一系列优化,显著提升了计算效率。通过引入AMX优化的CPU内核和高效的设备协调机制,KTransformers解决了传统混合推理中的协调开销和计算资源未有效利用的问题,使得在单机上部署万亿参数模型成为可能。

LMSYS AI技术 混合推理
134 02-04

SGLang-Diffusion 两个月的进展

自2025年11月初发布以来,SGLang-Diffusion在社区中引起了广泛关注和应用。我们非常感谢开源开发者的反馈和贡献。经过两个月的优化,SGLang-Diffusion的速度提升了2.5倍。本文总结了我们在模型支持、LoRA支持、并行性、硬件兼容性等方面的进展,并详细介绍了关键的技术改进和性能基准测试结果。

LMSYS AI技术 深度学习
117 02-04

SGLang Pipeline Parallelism:百万Token上下文扩展与性能突破

SGLang推出高度优化的Pipeline Parallelism(PP)实现,专为超长上下文推理设计。通过集成Chunked Pipeline Parallelism、Asynchronous P2P Communication和Dynamic Chunking机制,该实现实现行业领先性能,并无缝兼容其他并行策略。在多节点部署中,PP4 TP8配置下DeepSeek-V3.1的Prefill Throughput达TP8的3.31倍,较TP32提升30.5%。同时,TTFT降低高达67.9%,强扩展效率达82.8%。本文深入剖析PP在通信量、气泡比率及实现复杂度上的优势,证明其在跨节点大规模扩展中的独特价值,为万亿参数模型超长上下文推理提供高效开源方案。(128字)

LMSYS SGLang Pipeline Parallelism
107 02-04

AMD GPU 上 FP4 混合精度推理优化

随着前沿大语言模型(LLM)规模不断扩大,对 GPU 计算力和内存带宽的需求激增。GPU 厂商和模型开发者正转向低精度浮点格式,其中 FP4(4 位浮点)量化备受关注,例如 FP4 量化的 Llama 3.3 70B 模型体积缩小 3.5 倍,同时在 MMLU 等基准上质量损失最小。然而,现有的 AMD Instinct MI250 和 MI300 系列 GPU 缺乏原生 FP4 支持。为此,我们开发了 Petit——专为 AMD GPU 优化的 FP16/BF16 × FP4 混合精度内核集合。它在 MI200 和 MI300 系列上实现 FP4 模型高效推理:使用 SGLang 时端到端性能提升 1.74 倍,矩阵乘法比 hipBLASLt 快至 3.7 倍。Petit 已开源并集成至 SGLang 0.4.10,支持无缝部署 Llama 3.3 70B FP4 模型。(128 字)

LMSYS AMD GPU FP4量化
135 02-04

SGLang实现确定性推理与可重现RL训练

本文介绍SGLang团队在实现确定性推理方面的努力,以及与slime团队合作推动可重现RL训练的进展。基于Thinking Machines Lab的batch-invariant算子,SGLang实现了完全确定性推理,同时兼容chunked prefill、CUDA graphs、radix cache和非贪婪采样,使用CUDA graphs可获2.8x加速,性能开销仅34.35%(优于TML的61.5%)。进一步,与slime结合,实现100%可重现RL训练,在Qwen3-8B上验证两轮独立训练曲线完全一致。通过全面测试套件验证确定性,支持FlashInfer、FlashAttention 3和Triton后端,适用于调试与科学实验。未来将优化性能至20%以内开销。

LMSYS SGLang 确定性推理
104 02-04

GB200 NVL72部署DeepSeek优化(二):预填充3.8倍、解码4.8倍吞吐量

GB200 NVL72作为深度学习最强硬件之一,本文分享SGLang团队在上篇博客基础上,对DeepSeek V3/R1推理性能的进一步优化,包括FP8 attention、NVFP4 MoE、大规模专家并行(EP)、预填充-解码分离等技术。在FP8 attention和NVFP4 MoE下,SGLang实现每GPU预填充26,156 tokens/s、解码13,386 tokens/s(2000 token输入),较H100提升3.8倍和4.8倍。即使采用传统BF16 attention和FP8 MoE,也达18,471和9,087 tokens/s。优化涵盖低精度计算、更快内核集成、计算通信重叠等,精度损失微乎其微。实验验证了端到端性能大幅提升,并分析了内核级加速效果。(128字)

LMSYS SGLang DeepSeek
87 02-04

携手SGLang:在H20-96G上高效部署DeepSeek-R1的最佳实践

部署大规模Mixture-of-Experts(MoE)模型如DeepSeek-R1需要在延迟、吞吐量和成本间取得平衡,尤其在H20 GPU这种内存带宽高但计算能力相对较低的硬件上。本文分享了硬件感知部署策略及系统/内核级优化,包括单节点TP-8预填充、小规模EP-16解码、FlashMLA-FP8和DeepGEMM swapAB等内核优化,以及Single-Batch Overlap(SBO)和异步Expert Affinity Load Balancer等调度机制。实验显示,每节点在4096 token输入序列上实现16.5k输入token/s和5.7k输出token/s的SOTA性能,这是H20上首次全面工业实践研究。

LMSYS DeepSeek-R1 H20 GPU
105 02-04

PD-Multiplexing:GreenContext驱动的高好吞吐LLM服务新范式

本文介绍我们在SGLang中支持全新服务范式PD-Multiplexing的初步成果,该范式旨在提升LLM服务的goodput。通过NVIDIA新功能GreenContext,实现同一进程内GPU资源的轻量级细粒度分区,支持prefill和decode阶段的intra-GPU空间共享,避免KV cache跨实例迁移,并动态分配SM资源。该方法解耦prefill和decode执行,确保严格SLO(如TTFT和ITL),基准测试显示在H200上相比chunked-prefill显著提升TTFT,在8xA100s真实负载下goodput最高提升3.06x。未来将提供详细教程。(128字)

LMSYS PD-Multiplexing GreenContext
81 02-04
1 2 3 4 5

© 1998-2026 嬴政天下 All rights reserved.

继续秉承 我为人人 · 人人为我 的精神,始于1998,再启航于2025

关于赢政天下 投稿 RSS Sitemap 隐私政策 服务条款