2024年4月15日-19日,第27届联合国科技大会于在瑞士日内瓦召开。16日,在以“塑造人工智能的未来”为主题的人工智能边会上,世界数字技术院(WDTA)发布了一系列突破性成果,包括《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》两项国际标准。这是国际组织首次就大模型安全领域发布国际标准,代表全球人工智能安全评估和测试进入新的基准。据了解,这两项国际标准是由OpenAI、蚂蚁集团、科大讯飞、谷歌、微软、英伟达、百度、腾讯等数十家单位的多名专家学者共同编制而成。其中《大语言模型安全测试方法》由蚂蚁集团牵头编制。
1.大语言模型安全测试方法
标准为评估大型语言模型(LLM)抵御对抗性攻击的能力提供了一个框架。该框架适用于对LLM进行各种攻击分类的测试和验证,包括 L1随机攻击、L2盲盒攻击、L3黑盒攻击和L4白盒攻击。用于评估这些攻击有效性的关键指标包括攻击成功率(R)和下降率(D)。本文件概述了各种攻击方法,如指令劫持和提示屏蔽,以全面测试LLM对不同类型对抗技术的抵抗能力。本标准文件中详述的测试程序旨在建立一种结构化方法,用于评估LLMs抵御对抗性攻击的鲁棒性,使开发人员和组织能够识别并减少潜在漏洞,最终提高使用LLMs构建的人工智能系统的安全性和可靠性。通过建立 "大型语言模型安全测试方法",WDTA将引领创建一个先进并且安全、符合道德规范的数字生态系统。
2.生成式人工智能应用安全测试和验证标准
标准为测试和验证生成式人工智能应用程序的安全性提供了一个框架。该框架涵盖整个人工智能应用生命周期的关键领域,包括基础模型选择、检索增强生成设计模式中的嵌入和矢量数据库、提示执行/推理、代理行为、微调、响应处理和人工智能应用运行时安全。其主要目标是确保人工智能应用程序在其整个生命周期内都能安全地按照预期设计运行。通过为人工智能应用栈的每一层提供一套测试与验证标准和指南,本文件旨在帮助开发人员和组织提高使用LLM构建的人工智能应用的安全性和可靠性,降低潜在的安全风险,提高整体质量,并促进负责任的人工智能技术开发和部署。
关注“广东技术性贸易措施”,获取更多服务。