数据屏蔽最佳实践的四大要素-数据屏蔽线

保护客户信息是所有金融公司的安身立命之本。客户信息一旦遭到泄漏，不但会对公司声誉造成长期损害，而且还会违反诸如PCI DSS（支付卡行业数据安全标准）、HIPAA（健康保险流通与责任法案）以及马萨诸塞州最近通过的隐私保护法等法律法规的要求，甚至还可能会使公司陷入诉讼和赔偿纷争。正是由于存在这些风险，所以对于金融公司来说，确保只有获得访问授权的员工才可以使用客户信息比以往任何时候都更加重要。

虽然可以采用加密技术来保护客户信息，但这种防御方法很昂贵，而且还会使客户信息变成无法使用的格式。因此，研究人员提出了一种掩盖客户信息的替代性方法：数据屏蔽（Data Masking）。数据屏蔽不改变信息的格式，使其仍可用于开发和质量测试，同时又可以提供足够有效的信息，以服务公司的客户。那么，当金融公司准备采用数据屏蔽技术时，需要考虑的关键因素是什么呢？下面是数据屏蔽最佳实践的四大要素。

确定数据屏蔽系统的部署范围

考虑采用任何数据保护机制的首要任务，就是弄清并确定数据屏蔽系统的部署范围。数据屏蔽最佳实践要求金融公司明确哪些信息需要保护、哪些员工可以获得访问授权、哪些应用程序可以使用受保护的数据以及这些数据在生产和非生产领域的什么地方驻留。虽然这一要求理论上似乎容易实现，但由于大多数金融公司运营的复杂性和业务范围的广泛性，确定敏感信息、可以使用敏感信息的应用程序和可以接触敏感信息的员工实际上是一项艰巨的任务。

另外，确定一名员工是否可以获得访问客户信息的授权并不仅仅是一个非是即否的问题。对客户服务代表来说，他们可能需要访问客户的部分信息以验证客户身份，但并不必访问客户的全部信息。例如，客户服务代表可能想知道客户社会保障号/税号或者其账单/邮政编码的后4位，以确认打电话的人确实是该客户。虽然客户服务代表需要访问这一信息来确认客户身份，但他们并不需要完全访问整个社会保障号或账单邮寄地址。确定将信息掩盖到何种程度同时仍可用于商业目的可能比较困难，而且通常还需要法律/合规性部门参与或审查。

确定要采用的数据屏蔽技术

数据屏蔽最佳实践的第二个要素是，确定采用哪些数据屏蔽功能处理敏感信息。现有的数据屏蔽技术具有多种数据处理功能，但并不是所有的功能都适合保持有效的业务上下文信息。这些功能包括：

◆不确定的随机化（Non-deterministic Randomization）：使用随机生成的、满足各种约束条件的值替换敏感字段，确保数据仍然有效，而不会将数据替换成2月30日这样的日期。例如，将日期2009年12月31日替换为2010年1月5日。

◆模糊化（Blurring）：为原始值增加一个随机值，例如使用一个不超过原始值8%的随机值替换储蓄账户值。

◆置空（Nulling）：使用空符号替换敏感字段中的值。例如，将社会保障号404-30-5698替换为###-##-5698。

◆变换（Shuffling）：变换敏感字段中的值的位置。例如，将邮政编码12345变换为53142。

◆可重复的屏蔽（Repeatable Masking）：通过生成可重复且唯一的值，保持参照完整性（Referential Integrity）。例如，自始至终都使用26-3245870替换社会保障号24-3478987。

◆替换（Substitution）：使用值替换表随机替换原始值。例如，从一个包含10万个姓名的列表中用“Mary Smith”替换“Jane Doe”。

◆特殊规则（Specialized Rules）：这些规则适用于特殊字段，例如社会保险号、信用卡号码、街道地址和电话号码等，这些特殊字段在替换后仍保持结构上的正确性，并可用于工作流与检验和验证。例如，将“100 Wall St., New York, N.Y.”替换为“50 Maple Lane, Newark, N.J.”，其中的每个随机值（门牌号、街道、城市和州）构成一个有效地址，可以通过谷歌地图或在线地图查询服务MapQuest等应用查找到。

◆标记化（Tokenization）：标记化是一种特殊的数据屏蔽形式，利用独特的标识符替换敏感数据，使信息可以在以后恢复到原始数据。例如，为灾难恢复目的而存储的数据必须在以后可以恢复，或者在业务运行过程中信息必须通过不可信的域时，标记化非常有用。

考虑参照完整性需求

数据屏蔽最佳实践的第三个要素是企业的参照完整性需求，不过这一点在一开始部署数据屏蔽系统时往往容易被忽略。在企业层面，参照完整性通常要求汇总信息，以满足业务范围和资源共享需求。这意味着，来自同一业务范围应用程序的每种类型的信息都必须使用相同的算法/种子值进行屏蔽。

例如，如果业务范围A的应用程序的数据屏蔽系统将客户的出生日期替换为2010年1月5日，则业务范围B的应用程序的数据屏蔽系统必须将相同的出生日期输入值也替换为2010年1月5日。利用参考完整性，如果一个企业级应用程序需要访问每个已屏蔽的出生日期，则该应用程序可以关联和操作来自这两个业务范围应用程序的其余数据。如果在最初阶段或者甚至在部署了第二个数据屏蔽工具时，仍没有考虑这种要访问已屏蔽信息的工作流，则企业的数据屏蔽系统将需要进行重大的调整和信息的重新屏蔽，除非该金融公司的各项业务之间几乎不发生交互，而这通常是不可能的。

然而，对许多大型金融企业而言，在整个企业范围内使用单一的数据屏蔽工具一般并不可行。由于地域差异、预算/业务需求、不同的IT管理组或者不同的安全/监管要求，每种业务范围可能会需要部署自己的数据屏蔽工具。尽管这种情况不影响一般的数据屏蔽处理，但如果不同的数据屏蔽工具由于某种未知原因而不能同步，则可能会造成工作流难以继续。例如，对一个业务范围应用程序来说，出生日期的随机化可能完全可以接受。但对另一个业务范围应用程序来说，已屏蔽的出生日期必须属于一个该应用程序认为有效的预定义范围（例如超过21岁）。

增强数据屏蔽算法的安全性

数据屏蔽最佳实践的第四个要素是，保护数据屏蔽工具使用的种子值或算法的安全性。由于数据屏蔽的基本原则是只允许获得授权的用户访问经授权的信息，所以数据屏蔽工具使用的种子值或算法无疑属于高度敏感的数据。如果有人掌握了数据屏蔽工具使用的可重复的数据屏蔽算法，则他或她可以对大的敏感信息块进行逆向工程。一个数据屏蔽最佳实践是采用职责分离的原则，允许IT安全人员决定使用什么数据屏蔽方法和算法，并只能在初始部署阶段访问数据屏蔽工具以设置种子值，在部署完成之后IT安全人员则不能再访问数据屏蔽工具。

由于IT安全人员无权访问日常运营系统，而IT支持人员无权访问数据屏蔽算法，从而实现了严格的“职责分离”控制。但是，如果数据屏蔽工具未提供这种“职责分离”控制功能，则IT支持人员必须执行周期性的背景调查，并严密审计系统访问，以确保算法未遭泄漏。

未来的计划

数据屏蔽确实具有诸多优势。如果需要的话，可以修改企业应用程序本身以执行数据屏蔽处理，而不需要一个独立的数据屏蔽工具，因为企业应用程序的主要功能通常也是某种形式的数据处理操作。已屏蔽的信息是可读的，如果屏蔽功能使用得当的话，甚至可以使用“类生产”数据有效地测试产品业务工作流。客户服务应用程序（例如咨询台）也不必再为保护敏感信息而在屏幕上刻意抹去演示级功能，因为已屏蔽的数据本身就可以替应用程序掩盖敏感信息。如果客户信息在被打印之前已经进行了屏蔽处理，则即使打印操作可以执行，也不必担心是谁在使用打印机。但实施数据屏蔽并不像向现有应用程序中添加一个模块或开发一个专门实现数据屏蔽的系统那样简单。正如任何数据保护机制一样，在屏蔽第一条信息之前，企业需要制定计划、确定体系结构以及对未来业务如何运行的设想。

【编辑推荐】