技术标准:AI大规模采用的桥梁

随着人工智能从有趣的消费级聊天体验转向驱动经济中企业服务的通用技术,它面临着显著的可靠性障碍。企业需要信任AI系统能够产生正确、安全且可靠的响应,方能将其置于发挥更大价值的岗位。

要建立广泛企业采用所需的信任,行业必须采用风险管理标准,以降低部署者的不确定性。直到企业——包括中小型企业——感到安心,让AI代理访问其企业数据并自主谈判定价协议,否则我们无法实现当下行业追求的自动化交易。AI视觉系统需展现何种可靠性——99.9…%后多少个9——才能被信任用于检查石油管道损坏?部署AI临床支持工具辅助医生诊断又需何种要求?在制造线上,一小时停机即损失数百万收入,部署标准又该如何?在金融、医疗、制造等高风险、高信任应用中部署AI系统,将要求远高于今日的可靠性水平。这也意味着我们需要可靠地测量这种可靠性。

最终,可靠性目标和程序要求由ISO/IEC 42001等共识标准规定,正如其他需要风险管理的行业一样。由于AI是概率性技术,支持这些目标的评估标准至关重要,用于持续且经验性地证明可靠性和合规性。

AI的概率性本质使其与其它技术根本不同。例如,土木工程师可对符合标准的桥梁设计签字,几乎完全确信它能在各种天气下承载车辆,因为桥梁不会因第一百辆车通过而改变。而LLM每次交互都会产生不同结果。这种概率行为赋予新技术强大适应性,但也使可靠测量和评估变得极难。

因此,AI开发者在设计系统时需进行相同审查——审视计划并确保符合目标——同时,必须在多样真实世界条件下持续测量并经验性地证明符合可靠性目标。AI的设计即使用相同输入两次也会生成不同输出,因此需经验性地测量不同情境下的模型输入输出,以确定风险是否得到适当缓解。

MLCommons的作用

这就是我们发挥作用的地方。MLCommons等技术标准组织是AI领域对ISO等传统标准机构的 vital 补充。ISO等组织制定的标准设定广阔方向、明确目标和定性要求,基于业务需求及社会关切。基准标准组织则将这些目标转化为精确、可操作的指标。这种关系确保ISO标准中的目标基于模型开发者和企业用户可实际应用的实证数据。

例如,MLCommons积极参与ISO工作,如42119系列(AI测试与保障标准)。行业需要国际共识驱动的广泛AI测量指南,然后通过MLCommons AILuminate等具体基准实现生成AI安全与产品可靠性。这些技术规范必须快速演化,以匹配AI创新速度,提供标准目标与行业实践间的“活”桥梁。

标准化评估驱动进步

最终,标准化评估推动进步并建立公众信任。历史先例如新车评估程序(NCAP)显示,严格安全测试可变革整个行业,将五星安全评级车辆的市场份额从微不足道提升至大型市场中86%以上。通过对AI施加类似技术严谨性,并借助AILuminate等演化基准,行业可确保AI更安全可靠,解锁公司更高价值市场,并为消费者带来更大价值。

加入努力

构建可信AI需全球协作。加入MLCommons,共同塑造定义未来十年AI可靠性的技术标准。目前已有125+成员组织贡献于AILuminate等基准,致力于让AI更安全、可靠且广泛信任的每家组织均有席位。

本文来自 MLC 博客,赢政天下(winzheng.com)进行了全文翻译。 点击这里查看原文 如果转载中文,请注明出处,谢谢支持!