欧盟已采取行动规范机器学习。这项新法律对数据科学家意味着什么?
欧盟人工智能法案在欧洲议会获得通过。您可能会想,“无论如何,我不在欧盟”,但相信我,这对于世界各地的数据科学家和个人来说实际上比您想象的更重要。欧盟人工智能法案是规范和管理某些机器学习模型在欧盟的使用或影响欧盟公民的重大举措,其中包含一些严格的规则和对违规行为的严厉处罚。
该法律对风险进行了大量讨论,这意味着欧盟公民的健康、安全和基本权利面临风险。这不仅仅是某种理论上的人工智能灾难的风险,还涉及日常风险,即您正在构建的模型或您正在销售的产品在某种程度上使现实生活变得更糟。如果您熟悉当今有关人工智能伦理的许多争论,那么这听起来应该很熟悉。嵌入的歧视和对人民权利的侵犯,以及对人民健康和安全的损害,是当前人工智能产品和公司面临的严重问题,而这项法律是欧盟保护人民的首次努力。
一 定义人工智能
普通读者都知道,我们一直希望“人工智能”得到明确的定义。在这种情况下,该法案对“人工智能”的定义如下:
一种基于机器的系统,旨在以不同程度的自主性运行,在部署后可能表现出适应性,并且对于显式或隐式目标,从其接收到的输入推断如何生成输出,例如预测、内容、建议或决策,这些输出可以影响物理或虚拟环境。
那么,这到底意味着什么呢?我的解释是,产生用于影响世界(特别是人们的身体或数字条件)的输出的机器学习模型属于这个定义。它不必自动适应实时或重新训练,尽管如果这样做的话也包括在内。
但如果您正在构建用于执行以下操作的 ML 模型:
- 决定人们的风险水平,例如信用风险、规则或违法风险等
- 确定在线用户在提要或广告中显示哪些内容
- 区分同一产品向不同人显示的价格
- 为人们推荐最好的治疗、护理或服务
- 建议人们是否采取某些行动
如果你的模型影响到任何欧盟公民,那么这些都将受到这项法律的保护——这只是举几个例子。
二 人工智能应用分类
所有人工智能并不相同,法律也承认这一点。人工智能的某些应用将被完全禁止,而其他应用则受到更严格的审查和透明度要求。
1.不可接受的风险人工智能系统
这类系统现在被称为“不可接受的风险人工智能系统”,是根本不允许的。这部分法律将首先生效,即六个月后。
- 通过行为操纵或欺骗手段让人们做他们本来不会做的事情
- 由于年龄或残疾等原因而针对人们,以改变他们的行为和/或利用他们
- 生物识别分类系统,尝试根据高度敏感的特征对人进行分类
- 导致社会评分或差别待遇的人格特征评估
- 在选定的一组用例之外,为执法部门提供“实时”生物特征识别(有针对性地搜寻失踪或被绑架人员、对生命或安全/恐怖主义构成迫在眉睫的威胁,或起诉特定犯罪)
- 预测性警务(预测人们将来会犯罪)
- 广泛的面部识别/生物识别扫描或数据抓取
- 没有医疗或安全目的的教育或工作中的情绪推断系统
例如,这意味着您无法建立(或被迫提交)旨在确定您是否“高兴”足以获得零售工作的筛选。面部识别仅限于选择的、有针对性的、特定的情况。预测警务现在非常遗憾,它已经退出了。
“生物识别分类”点是指利用政治、宗教、哲学信仰、性取向、种族等危险或敏感特征对人们进行分组的模型。法律禁止使用人工智能尝试根据这些类别给人们贴上标签,这是可以理解的。
2.高风险人工智能系统
该列表涵盖了未被禁止但受到严格审查的系统。有涵盖所有这些系统的具体规则和规定,如下所述。
- 医疗设备中的人工智能
- 车辆中的人工智能
- 情绪识别系统中的人工智能
- 人工智能在警务领域的应用
这不包括上述那些特定用例。因此,情绪识别系统可能是被允许的,但不能用于工作场所或教育领域。医疗设备和车辆中的人工智能被认为对健康和安全具有严重风险或潜在风险,这是正确的,并且需要非常小心地开展。
3.其他
剩下的另外两个类别是“低风险人工智能系统”和“通用人工智能模型”。通用模型包括 GPT-4、Claude 或 Gemini 等系统,它们具有非常广泛的用例,通常用于其他下游产品。因此,GPT-4 本身并不属于高风险或禁止类别,但嵌入它们以供使用的方式受到此处描述的其他规则的限制。您不能使用 GPT-4 进行预测性警务,但 GPT-4 可用于低风险案件。
三 透明度和审查
假设您正在开发一个高风险的人工智能应用程序,并且您希望遵守所有规则并获得批准。如何开始?
对于高风险人工智能系统,您将负责以下事项:
- 维护并确保数据质量:您在模型中使用的数据是您的责任,因此您需要仔细管理它。
- 提供文档和可追溯性:您从哪里获得数据,您能证明吗?您能展示您所做的任何更改或编辑吗?
- 提供透明度:如果公众正在使用您的模型(想想聊天机器人)或者模型是您产品的一部分,您必须告诉用户情况确实如此。不要假装模特只是客户服务热线或聊天系统中的真人。这实际上适用于所有模型,甚至是低风险模型。
- 使用人类监督:仅仅说“模型说……”并不能解决问题。人类将对模型的结果负责,最重要的是,对结果的使用方式负责。
- 保护网络安全和稳健性:您需要注意确保您的模型免受网络攻击、破坏和无意的隐私侵犯。如果你的模型因代码错误而搞砸,或者由于你未修复的漏洞而被黑客攻击,那么后果将由你承担。
- 遵守影响评估:如果您正在构建高风险模型,您需要对用户或用户的健康、安全和权利可能产生的影响(即使您无意)进行严格的评估。民众。
- 对于公共实体,在欧盟公共数据库中注册:该注册表是作为新法律的一部分而创建的,备案要求将适用于“公共当局、机构或团体”——因此主要是政府机构,而不是私营企业。
四 测试
法律指出的另一件事是,如果你正在构建一个高风险的人工智能解决方案,你需要有一种方法来测试它,以确保你遵循指导原则,因此一旦对普通人进行测试就可以允许您获得知情同意。我们这些从事社会科学的人会发现这很熟悉——这很像获得机构审查委员会批准进行一项研究。
五 效力
该法分阶段实施:
- 6个月后,对不可接受风险AI的禁令生效
- 12个月后,通用AI治理生效
- 24 个月后,法律中所有剩余规则生效
注意:法律不涵盖纯粹的个人、非专业活动,除非它们属于前面列出的禁止类型,因此您的小型开源项目不太可能构成风险。
六 处罚
那么,如果您的公司不遵守法律并且欧盟公民受到影响,会发生什么情况?法律中有明确的处罚措施。
如果您执行上述禁止的人工智能形式之一:
- 处以最高3500 万欧元的罚款,或者如果您是企业,则处以去年全球收入的 7% (以较高者为准)
禁止的其他违法行为:
- 最高1500 万欧元的罚款,或者,如果您是企业,则为去年全球收入的 3% (以较高者为准)
就以下任何事情向当局撒谎:
- 最高750 万欧元的罚款,或者,如果您是企业,则为去年全球收入的 1% (以较高者为准)
注意:对于中小型企业,包括初创企业,罚款以较低数字为准,而不是较高数字。
七 数据科学家应该做什么
如果您要根据该法案的定义使用人工智能构建模型和产品,您首先应该熟悉法律及其要求。即使您今天没有影响欧盟公民,这也可能对该领域产生重大影响,您应该意识到这一点。
然后,留意您自己的企业或组织中潜在的违规行为。你有一些时间来发现和解决问题,但被禁止的人工智能形式首先生效。在大型企业中,您可能会有一个法律团队,但不要以为他们会为您处理所有这些事情。您是机器学习方面的专家,因此您是企业检测和避免违规行为的重要组成部分。您可以使用欧盟人工智能法案网站上的合规检查工具来帮助您。
目前,企业和组织正在使用多种形式的人工智能,而这些形式是新法律所不允许的,比如 Clearview AI,以及预测性警务。情绪测试也是人们在工作面试过程中遭受的一个非常真实的事情,以及大量的面部或其他生物识别收集。一旦法律全面生效,对我们所有人来说,关注这一点并了解执法情况将是非常重要的。