简析数据匿名化的方法、挑战与应用实践-51CTO.COM

大数据分析是推动现代企业组织业务发展的核心工具，然而，企业在使用相关的用户数据时，也需要严格保护用户的隐私安全。而在保护数据隐私的各类方法中，数据匿名化是一种非常有效的数据保护措施。

数据匿名化的方法

从数据匿名化的定义来看，该技术旨在将敏感的用户隐私信息转换成无法与特定人员关联的匿名化数据，是一种去除或哈希化与个体相关联的各种数据点的过程。这个过程使组织能够存储和交换用户数据，同时不会暴露数据与特定个人的任何联系。即使恶意分子设法获得了这些匿名化数据，也难以识别该数据属于谁，因此有助于防止身份盗窃、金融欺诈、跟踪及骚扰、歧视以及其他侵犯隐私的行为，这正是数据匿名化的目的。

数据匿名化可以通过多种方式来执行，下面收集了目前最常见的数据匿名化方法：

数据屏蔽

数据屏蔽是指创建数据的一个虚假但结构相似的版本，主要通过变换字符、替换单词或字符或加密内容来改变数据。例如，字母“R”可以通过替换屏蔽变成“L”，或者信用卡号可以被屏蔽为“**** **** **** **** 1126”。

数据合成

数据合成是在保留原始数据统计属性的同时，基于真实数据生成人工数据集。该方法支持全面地测试、分析和数据共享，而不影响PII的可用性。

数据泛化

数据泛化是指在保留数据准确性的同时删除某些标识符，从而降低敏感信息的可识别性。这就像一个显微镜，隐藏了更精细的细节，但仍保持了用于分析的高准确性。

数据交换

数据交换是一种非常简单的匿名化方法，主要将数据中的某些属性与其他属性进行交换。这意味着在此过程结束时将得到一个混洗的数据库，避免泄露任何自然人的真实信息。

数据干扰

数据干扰指为数据引入随机的或不相关的信息。以数据泄露为例，这种方法能够使恶意分子难以区分真实数据和随机添加的数据。

假名化

假名化是从数据集中删除某类标识符并替换为假名称的过程。这种匿名化技术的主要目标是确保特定数据难以与可识别的个人匹配。假名化数据的简单方法是用假名(伪名)替换个人的姓名。例如，当用户在注册时提交姓名“Jane”，则后台数据库可以简单地将其记录为“Person 2647”。

数据匿名化的挑战

数据匿名化可以帮助企业安全地使用个人隐私信息，然而，实施有效的匿名化工作并不容易。无论组织选择以上哪种方式对数据进行匿名化处理，都可能会面临以下的应用挑战：

1、难以兼顾隐私性和可用性

兼顾数据匿名化和数据实用性至关重要，但又困难重重。一方面，匿名化技术对于保护客户、员工及其他用户的隐私至关重要，因此在理论上，如果从数据中完全清除PII的匿名化技术和工具对于确保数据隐私安全将大有裨益;另一方面，企业需要将收集到的数据用于研究、分析和决策，而完全匿名化的数据可能会大幅降低其使用的价值。

对于企业而言，是要实现和保持最大程度的隐私保护，同时保持足够的数据准确性。实现这个目标需要持续评估和优化数据匿名化过程。

2、数据连接关系被破坏

在数据匿名化的过程中，会减少数据的细化程度和准确性，因此在很多情况下，会破坏了单点数据之间的连接关系。而这些数据连接关系对于开展人工智能或数据科学研究至关重要，一旦破坏了数据间的连接关系，匿名化数据在可获得的效用方面将受到很大限制。

3、逆向破解

数据匿名化就可以无后顾之忧了吗?实际上，匿名化数据始终存在去匿名化风险。在匿名化技术与时俱进的时候，对匿名化数据的逆向破解技术也在不断发展，匿名化处理后的数据如果没有得到妥善的保管和使用，就有可能被第三方获取并使用技术进行破解。

恶意分子利用大量攻击来重新识别目标，甚至直接使用匿名化数据。比如说，如果他们设法访问了包含财务信息的匿名化数据集，可以将其与其他数据集结合起来，并最终执行重识别。为了加强对数据隐私的保护，企业应该考虑将匿名化技术与其他数据安全方法结合应用。

4、数据安全合规要求

不同的数据保护要求决定了企业应该如何收集、存储和处理个人信息。在很多法规中，明确提出了要求使用匿名化技术，比如欧盟《通用数据保护条例》、美国《个人信息保护和电子文档法》以及我国的《个人信息保护法》等。尽管从法律意义上，可以将匿名化后的个人信息不再视为隐私信息，而当作一般数据来处理。但是一些法规同样要求，如果这些匿名化数据可被重新识别，那么数据安全保护的要求就依然适用。这意味着企业需要像对待个人隐私数据一样对待匿名化数据，并对其进行适当保护。

数据匿名化的最佳实践

为了帮助企业保护个人信息，同时将个人信息数据的分析价值最大化，以下列举了数据匿名化技术应用的一些最佳实践：

1、进行数据发现和分类

识别数据集中的个人身份信息(PII)是进行数据匿名化的前提。数据发现和分类是帮助企业完成这项任务的重要实践。数据发现用于识别企业存储的所有数据、数据类型以及数据资产之间的关系，简化数据管理。数据分类根据数据属性和特征对数据进行分类和标记，使企业能够为不同类别的数据实施量身定制的安全措施。通过采用这两种实践，企业可以准确识别需要匿名化的敏感数据，并确保其得到保护。此外，企业可以考虑使用适合具体数据情况的匿名化技术，以满足其需求。

2、确定数据用例的优先级

为了保护个人隐私数据，企业需要明确了解内部人员如何使用数据。识别所有数据用例并确定优先级顺序可以提高数据匿名化工作的效率。与企业内的数据消费者联系，了解他们使用数据的方式和目的，可以揭示最常见的数据用例及其对企业的重要性。然后，根据这些用例对数据隐私和业务价值的风险程度确定其优先级。一旦确定了数据用例的优先级，企业将更容易决定首先匿名化哪些敏感信息。这样，企业可以优化匿名化所需的资源和工作量。

3、充分了解相关的法律要求

确保个人敏感信息的安全是匿名化的终极目标，但企业必须遵守数据保护要求，分析适用于企业的法律、标准和法规是确保合规的第一步。以下是分析适用地法律要求的几个步骤：

确定适用于所在行业、地点和经营区域的要求。
研究和理解这些要求。
以通俗易懂的方式向团队解释要求。
将要求整合到工作流程中。
记录要求和满足要求的既定程序。
持续监控这些要求是否有变化或出现新的要求。
定期更新文件，并提高员工对合规措施的认识。

4、尽量减少数据收集

大量数据收集可能无益甚至有害。收集过多的数据会导致资源浪费，因为企业可能无法使用所有收集到的数据，并需要投入资源来存储和保护这些未使用的数据资产。简化数据匿名化过程并降低数据安全风险的方法之一是尽量减少数据收集。因此，企业应仅收集分析所必需的数据，并避免收集可能永远不会使用的数据。

5、评估优化匿名化技术

如尽管许多平台提供内置的数据匿名化功能，但企业仍需要评估这些功能是否足够适用于适当的个人数据匿名化、防止重识别，并符合数据保护要求。为此，企业应考虑分析当前技术架构的匿名化功能，以检查其是否符合所需的匿名化水平。此外，还需要审查这些功能是否能够满足组织适用的数据保护要求。通过这个过程，企业可以确定当前架构是否足以满足其匿名化需求，并确定是否需要部署其他数据匿名化工具来填补任何缺漏。

6、事先为重识别做好规划

为了合规需要，企业可能需要对以前进行匿名化的数据进行重识别。通过事先计划数据重识别，企业可以降低违反数据隐私的风险，并确保在需要时能够访问数据。为此，可以考虑以下措施：

确认企业的匿名化技术是否支持重识别。
定义并记录进行数据重识别的合法理由。
制定重识别过程的准则，明确可用于数据去匿名化的技术和工具。
指定负责重识别过程的人员，并明确他们的责任。
确定为保护去匿名化数据而采取的安全措施。
制定规定内部人员访问去匿名化数据所需程序的限制。

参考链接：

https://www.ekransystem.com/en/blog/data-anonymization-best-practices。