一文读懂数据内容识别核心技术-重要数据识别指南

小王所在企业因为办公文件通过网络出口被泄露到了互联网上被有关部门通报了……

去年单位刚刚在网络出口部署了具有拦截敏感文件外发功能的设备，为什么还会出现这种情况呢?

那我们就要从数据防泄漏通用技术说起了。

数据防泄露通用技术

为了预防数据丢失，无论数据的存储、复制或传输位置在哪里，都必须准确地检测所有类型的机密数据。如果没有准确的检测，数据安全系统就会生成许多误报 (将并未违规的消息或文件标识为违规) 以及漏报 (未将违反策略的消息或文件标识为违规)。误报会大量耗费进行进一步调查和解决明显事故所需的时间和资源。漏报会掩盖安全漏洞，导致数据丢失、潜在财务损失、法律风险并有损组织声誉。小王单位的这起事件，很明显就是因为漏报引起的。

因此需要准确的检测技术来做保障。为了确保最高的准确性，一般数据防泄漏DLP系统采用了三种基础检测技术和三种高级检测技术。

1. 基础检测技术

基础检测技术中通常有三种方式，正则表达式检测(标示符)、关键字和关键字对检测、文档属性检测。基础检测方法采用常规的检测技术进行内容搜索和匹配，比较常见的都是正则表达式和关键字，此两种方法可以对明确的敏感信息内容进行检测;文档属性检测主要是针对文档的类型、文档的大小、文档的名称进行检测，其中文档的类型的检测是基于文件格式进行检测，不是简单的基于后缀名检测，对于修改后缀名的场景，文件类型检测可以准确的检测出被检测文件的类型，绿盟科技的数据防泄漏DLP系统目前支持100多种标准的文件类型，并且可以通过自定义特征，去识别特殊的文件类型格式的文档。

2. 高级检测技术

高级检测技术中也有三种方式，精确数据比对 (EDM)、指纹文档比对 (IDM)、向量分类比对 (SVM)。EDM 用于保护通常为结构化格式的数据，例如客户或员工数据库记录。IDM和SVM 用于保护非结构化的数据，例如 Microsoft Word 或 PowerPoint 文档。对于 EDM、IDM、SVM 而言，敏感数据会先由企业标识出来，然后再由DLP判别其特征，以进行精准的持续检测。判别特征的流程包括DLP访问和检索文本及数据、予以正规化，并使用不可逆的打乱方式进行保护。

DLP 检测是以实际的机密内容为基础，而非根据文件本身。因此，DLP不只能检测敏感数据的检索项或衍生项，而且能够标识文件格式与特征信息格式不同的敏感数据。例如，如果已经判别出机密 Microsoft Word 文档的特征，DLP就能够在相同的内容以 PDF 附件的方式通过电子邮件进行提交时，将其准确检测出来。

(1) 精确数据比对

精确数据比对 (EDM) 可保护客户与员工的数据，以及其他通常存储在数据库中的结构化数据。例如，客户可能会撰写有关使用 EDM 检测的策略，以在消息中查找“名字”、“身份证号”、“银行帐号”或“电话号码”其中任意三项同时出现的情况，并将其映射至客户数据库中的记录。

EDM 允许根据特定数据列中的任何数据栏组合进行检测;也就是在特定记录中检测 M 个字段中的 N 个字段。它能够在“值组”或指定的数据类型集上触发;例如，可接受名字与身份证号这两个字段的组合，但不接受名字与手机号这两个字段的组合。

由于会针对每个数据存储格存储一个单独的打乱号码，因此只有来自单个列的映射数据才能触发正在查找不同数据组合的检测策略。例如，有个 EDM 策略请求“名字 + 身份证号 +手机号”的组合，则“张三”+“13333333333”“110001198107011533” 可触发此策略，但是即使 “李四”也位于同一数据库中，“李四”+“13333333333”“110001198107011533”也不能触发此策略。EDM 也支持相近逻辑以减少可能的误报情形。对于检测期间所处理的自由格式文本而言，单个特征列中所有数据各自的字数均必须在可配置的范围内，方可视为匹配项。例如，依默认，在检测到的电子邮件正文的文本中，“张三”+“13333333333”“110001198107011533”各自的字数必须在选定的范围内，才会出现匹配项。对于含有表式数据 (例如 Excel 电子表格) 的文本而言，单个特征列中所有数据都必须位于表式文本的同一行上，方可视为匹配项，以减少整体误报情形。

(2) 指纹文档比对

“指纹文档比对”(IDM) 可确保准确检测以文档形式存储的非结构化数据，例如 Microsoft Word 与 PowerPoint 文件、PDF 文档、财务、并购文档，以及其他敏感或专有信息。IDM 会创建文档指纹特征，以检测原始文档的已检索部分、草稿或不同版本的受保护文档。

IDM 首先要进行敏感文件的学习和训练，拿到敏感内容的文档时， IDM采用语义分析的技术进行分词，然后进行语义分析，提出来需要学习和训练的敏感信息文档的指纹模型，然后利用同样的方法对被测的文档或内容进行指纹抓取，将得到的指纹与训练的指纹进行比对，根据预设的相似度去确认被检测文档是否为敏感信息文档。这种方法可让 IDM 具备极高的准确率与较大的扩展性。

(3) 向量机分类比对

支持向量机(Support Vector Machines)是由Vapnik等人于1995年提出来的。之后随着统计理论的发展，支持向量机也逐渐受到了各领域研究者的关注，在很短的时间就得到很广泛的应用。支持向量机是建立在统计学习理论的VC维理论和结构风险最小化原理基础上的，利用有限的样本所提供的信息对模型的复杂性和学习能力两者进行了寻求最佳的折中，以获得最好的泛化能力。SVM的基本思想是把训练数据非线性的映射到一个更高维的特征空间(Hilbert空间)中，在这个高维的特征空间中寻找到一个超平面使得正例和反例两者间的隔离边缘被最大化。SVM的出现有效的解决了传统的神经网络结果选择问题、局部极小值、过拟合等问题。并且在小样本、非线性、数据高维等机器学习问题中表现出很多令人注目的性质，被广泛地应用在模式识别，数据挖掘等领域。

SVM比对算法适合那些具有微妙的特征或很难描述的数据，如财务报告和源代码等。使用过程中，先将文档按照内容细分化分类，每一类文档集合有属于本类的意义，经过SVM比对，确定被检测的文档属于哪一类，并取得此类文档的权限和策略。同时，针对SVM的特点，可以进行终端或服务器上的文档按照分类含义进行分类数据发现。

IDM和SVM的比对区别是，IDM将待检测文件的指纹和训练模型中的每一个文件进行指纹比对;而SVM是将待检测文件向量化，并归属到某一类训练集所建立的向量空间。

可见，做好数据防泄密，只有基础的识别、检测技术是不够的。随着大数据、云计算以及移动互联网的高度融合，对数据安全技术提出了更高的要求，泄密事件将呈现高发趋势。选择一套功能强、信得过的数据防泄露系统，保护企业的核心数据，降低泄密风险显得尤为重要。

【本文是51CTO专栏作者“绿盟科技博客”的原创稿件，转载请通过51CTO联系原作者获取授权】

戳这里，看该作者更多好文