AI安全框架现状
人工智能的应用正在快速发展,众多组织仍在探索如何保障已部署系统的安全。美国国家标准与技术研究院人工智能风险管理框架(NIST AI-RMF)、OWASP大语言模型和生成式AI十大风险(OWASP Top 10 for LLMs and GenAI)以及MITRE ATLAS等框架正在为安全可靠的人工智能设定标准。
框架协同与整合
将安全计划与这些框架对齐对许多组织而言是一项挑战,特别是在已投入生产的系统中追加合规要求时。这些框架不仅是简单的检查清单,更提供了构建可信AI系统的系统方法。它们与美国网络安全和基础设施安全局(CISA)的"安全设计"方法相契合,后者包含三个基本原则:
- 承担安全成果的责任
- 保持透明度和问责制
- 建立支持安全的组织架构
主要框架解析
各框架虽侧重点不同,但都致力于确保AI系统的可信、安全和负责:
- NIST AI-RMF:采用"映射、测量、管理和治理"的分阶段模型,帮助评估和提升AI可信度
- OWASP框架:识别语言模型和生成式AI的关键漏洞
- MITRE ATLAS:提供AI系统威胁全景图,梳理已知攻击方法
五大实施步骤
- 全面盘点AI资产
- 建立完整的AI资产清单
- 覆盖内部模型、第三方服务和潜在影子AI项目
- 支持NIST框架的"映射"阶段
- 系统性威胁建模
- 在开发初期即开展威胁建模
- 关注AI特有威胁:提示注入、数据投毒等
- 持续更新威胁模型
- 强化系统可观察性
- 记录AI决策路径
- 追踪模型版本变更
- 确保输入输出可追溯
- 前置测试环节
- 对所有模型进行全面扫描
- 将红队测试纳入常规实践
- 持续性生产环境测试
- 向量级访问控制
- 建立AI感知的策略执行机制
- 监控敏感内容和未授权推断
- 完善AI特定访问控制架构
实施成效
通过在AI全生命周期应用安全设计原则,组织可以实现安全性与合规性的相互促进,从而构建具有韧性、透明度和可信度的AI系统。