欧洲数据保护委员会(EDPB)周三发布了一份意见,探讨AI开发者如何在不违反欧盟隐私法的情况下使用个人数据来开发和部署AI模型,例如大型语言模型(LLMs)。该委员会在这些法律的应用中扮演着关键的指导角色,发布支持监管执行的指南,因此其观点非常重要。
EDPB的意见涵盖了多个领域,包括AI模型是否可以被视为匿名(即隐私法将不适用);是否可以使用“合法利益”作为合法处理个人数据以开发和部署AI模型的法律依据(即不需要征求个人同意);以及使用非法处理的数据开发的AI模型是否可以随后合法部署。
确保AI模型符合《通用数据保护条例》(GDPR)的适当法律依据问题尤其是一个热门且未解的问题。OpenAI的ChatGPT曾因未遵守隐私规则面临困境。如果不遵守隐私规则,可能会导致高达全球年营业额4%的罚款和/或要求改变AI工具的工作方式。
大约一年前,意大利的数据保护机构初步发现OpenAI的聊天机器人违反了GDPR。从那时起,其他针对该技术的投诉也陆续出现,包括在波兰和奥地利,针对其处理人们数据的合法依据、编造信息的倾向以及无法纠正错误陈述。
GDPR不仅包含了如何合法处理个人数据的规则,还赋予个人一系列数据访问权利——包括请求获取其数据副本、删除其数据以及更正其错误信息。但对于生成式AI聊天机器人(或行业称之为“幻觉”),这些要求并不简单。
虽然生成式AI工具迅速面临多项GDPR投诉,但到目前为止,执法行动相对较少。欧盟数据保护机构显然在努力将长期确立的数据保护规则应用于需要大量数据进行训练的技术。EDPB的意见旨在帮助监管机构做出决策。
爱尔兰数据保护委员会(DPC)在一份声明中回应称,该委员会发起了对意见所涉及领域的请求,并且作为去年年底法律变更后负责监督OpenAI GDPR的监管机构,认为EDPB的意见将“促进主动、有效和一致地监管”整个地区的AI模型。
“它还将支持DPC在公司推出新AI模型之前与其进行接触,以及处理提交给DPC的众多AI相关投诉,”专员Dale Sunderland补充道。
除了为监管机构提供如何处理生成式AI的指导外,该意见还为开发者提供了一些指导,说明隐私监管机构可能如何在关键问题上做出决策。但他们应当明白的主要信息是:对于他们面临的法律不确定性,不会有一刀切的解决方案。
例如,在模型匿名性问题上——委员会将其定义为一个AI模型,该模型应“极不可能” “直接或间接识别出用于创建模型的个人数据”,并且极不可能允许用户通过提示查询从模型中提取这些数据——意见强调这必须“逐案评估”。
该文件还提供了委员会所谓的“非强制性和非详尽的”方法列表,开发者可以通过这些方法展示匿名性,例如通过选择训练数据源,包含避免或限制收集个人数据的步骤(包括排除“不适当”的来源);在训练前的数据准备阶段采取数据最小化和过滤步骤;做出稳健的“方法选择”,例如选择旨在提高模型泛化能力和减少过拟合的“正则化方法”,以及应用隐私保护技术如差分隐私;以及在模型中添加任何可以降低用户通过查询从训练数据中获取个人数据风险的措施。
该意见还探讨了是否可以使用合法利益作为AI开发和部署的法律依据。这一点很重要,因为GDPR中只有少数可用的法律依据,而大多数都不适用于AI——正如OpenAI通过意大利数据保护机构的执法已经发现的那样。
合法利益可能是构建模型的AI开发者的选择依据,因为它不需要从每个数据被处理以构建技术的个人那里获得同意。(鉴于用于训练LLMs的数据量,显然基于同意的法律依据在商业上不具有吸引力或可扩展性。)
同样,委员会的观点是,数据保护机构将需要进行评估,以确定合法利益是否是处理个人数据以开发和部署AI模型的适当法律依据——参照标准的三步测试,要求监管机构考虑处理的目的和必要性(即它是合法和具体的;是否有任何替代的、侵扰性较小的方法来实现预期结果),并进行平衡测试以查看处理对个人权利的影响。
EDPB的意见为AI模型符合依赖合法利益的所有标准留下了可能性,例如建议开发AI模型以提供对话代理服务来帮助用户,或部署改进的信息系统威胁检测将符合第一个测试(合法目的)。
为了评估第二个测试(必要性),评估必须查看处理是否实际实现了合法目的,以及是否没有侵扰性较小的方法来实现目标——特别关注处理的个人数据量是否与目标相称,考虑到GDPR的数据最小化原则。
第三个测试(平衡个人权利)必须“考虑每个案例的具体情况”,根据意见。特别关注在开发和部署过程中可能出现的对个人基本权利的任何风险。
平衡测试的一部分还要求监管机构考虑数据主体的“合理预期”——即,个人的数据被处理用于AI是否可以预期他们的信息会以这种方式被使用。相关考虑因素包括数据是否公开可用,数据的来源及其收集的背景,个人与处理者之间的任何关系,以及模型的潜在进一步用途。
在平衡测试失败的情况下,即个人利益超过处理者的利益,委员会表示可以考虑减轻处理对个人影响的措施——这些措施应根据“案件情况”和“AI模型的特征”进行定制,例如其预期用途。
该意见引用的减轻措施示例包括技术措施(如上文模型匿名性部分所列的那些);假名化措施(如检查防止基于个人标识符的任何个人数据组合);在训练集中掩盖个人数据或用虚假个人数据替代的措施;旨在使个人能够行使其权利的措施(如选择退出);以及透明度措施。
该意见还讨论了减轻与网络抓取相关风险的措施,委员会称这带来了“特定风险”。
该意见还对监管机构应如何处理使用非法处理的数据训练的AI模型这一棘手问题发表了看法,因为GDPR要求数据必须合法处理。
再次,委员会建议监管机构考虑“每个个案的具体情况”——因此欧盟隐私监管机构将如何回应陷入此类违法行为的AI开发者的问题是……取决于具体情况。
然而,该意见似乎为那些可能在不稳固(法律)基础上构建的AI模型提供了一种解脱方式,例如因为他们从任何地方抓取数据而没有考虑任何后果,如果他们采取措施确保在模型进入部署阶段之前任何个人数据都被匿名化。
在这种情况下——只要开发者能够证明模型的后续操作不涉及个人数据处理——委员会表示GDPR将不适用,写道:“因此,初始处理的违法性不应影响模型的后续操作。”
独立顾问兼KCL人工智能研究所附属机构Lukasz Olejnik讨论了该意见这一要素的重要性——他的针对ChatGPT的GDPR投诉在波兰的数据保护机构已考虑了一年多——警告称“必须注意不要允许系统性滥用方案”。
“这是对迄今为止数据保护法律解释的一个有趣的潜在分歧,”他告诉TechCrunch。“通过只关注最终状态(匿名化),EDPB可能无意中或潜在地使没有适当法律依据的网络数据抓取合法化。这可能会破坏GDPR的核心原则,即个人数据必须在每个阶段,从收集到处置,都是合法处理的。”
当被问及他认为EDPB意见对他针对ChatGPT的投诉有何影响时,Olejnik补充道:“该意见并没有束缚国家数据保护机构的手脚。不过,我确信PUODO(波兰的数据保护机构)将在其决定中考虑到这一点,”尽管他也强调,他针对OpenAI的AI聊天机器人的案件“超出了训练的范围,包括责任和隐私设计”。
欧盟的ChatGPT工作组提供了首次探讨AI聊天机器人隐私合规性的机会。