文档脱敏技术在信贷评审业务上的应用

原创 精选
人工智能
本文详细阐述了工行软开中心如何运用人工智能技术对行内信贷评审报告进行智能脱敏处理,通过敏感信息块检测、敏感要素检测、敏感图像检测等技术手段进行敏感信息识别,实现评审报告合规共享,从而支撑审贷人员更便捷地获取各行业的优质评审经验,提升评审质效。

一、背景

传统信贷评审流程中,审贷人员通常依据贷前尽调报告及自身经验撰写评审报告,报告涵盖拟授信企业的行业分析、财务情况评估及市场前景预估等内容,对审贷人员的行业知识储备、风险评估能力和趋势判断能力有较高的要求,且近年来新能源汽车、芯片等新兴行业的市场情况瞬息万变,无疑使信贷评审工作增添了更多的挑战。因此,审贷人员亟需获取行内资深审贷专家报告来汲取相关评审经验,辅助审批决策;但由于法律法规、监管规定对跨分行文档阅读权限等安全性方面的制约,基层审贷人员往往难以获取到该类评审报告。

在此背景下,工行软开中心对历史大量评审报告影像资料和业界数据安全技术进行了调研研究,创新性地提出了文档智能脱敏方案。在符合法律法规和监管规定的前提下,通过敏感信息块检测、敏感要素检测、敏感图像检测等技术手段进行敏感信息识别和涂抹,对信贷评审报告实现了敏感信息99%的自动脱敏,在保证文档安全性的同时,实现文档的快速共享。

二、文档智能脱敏方案

文档智能脱敏方案主要是借助人工智能技术对文档进行深度结构化分析,再通过自然语言处理识别文档中的敏感信息块和各类敏感要素,通过图像处理识别敏感图像,使得文档中的文字信息和图像内容安全地脱敏。该方案主要涉及三个核心能力:

1.敏感信息块检测

文档中有些敏感信息通常以孤立的形式存在,缺乏必要的上下文信息,例如,审贷人员的姓名及其所属机构等数据,多以嵌入隐藏表格的方式保存,传统的要素抽取技术和实体识别模型无法满足识别该类孤立敏感数据识别的需求。为了有效识别孤立敏感数据,工行软开中心设计并建设了敏感信息块检测能力,通过文档分割并将内容向量化,与自建的敏感短语向量数据库进行比对,高效识别敏感信息块。

图1 敏感信息块效果(红框所示)图1 敏感信息块效果(红框所示)

敏感信息块检测的主要流程如下:首先,从历史影像资料中收集可能的敏感短语,并利用基于StructBert训练的分类模型进行处理;其次,将敏感短语向量化,作为分类模型的隐层特征(768维);再次,将向量化的敏感短语信息存储到向量数据库中。当需要脱敏的文档上传后,将文档内容分割成多个小部分(chunk)并批量向量化,再计算chunk中的向量与向量数据库中已存储的敏感短语向量之间的余弦距离,若余弦距离超过预设阈值,则该部分内容被判定为敏感信息。

图2 敏感块检测图2 敏感块检测

2.敏感要素检测

文档中的敏感信息种类繁多,包括但不限于企业名称、企业法人姓名、股东名称、股权代码、社会统一代码等十余种关键要素,这些敏感要素无固定格式,识别该类要素具有一定的挑战。因此,工行软开中心建设了敏感要素检测能力,采用多种模型集成的方法,来精确识别文档中各类敏感元素。

对于企业法人名称、企业名称、股东法人名称、股东名称等敏感要素,工行软开中心采取在BERT模型基础上进行微调的方法来提升检出率。具体来说,首先,对文档语料进行打标,实体的开头字符用“B-”表示,实体的非开头部分用“I-”标记,非实体部分则用“0”表示;其次,在原有的BERT模型基础上,添加条件随机场(CRF)层,形成微调后的新模型,对打标语料识别'B-I'部分,抽取出不同类型的实体元素,从而提升敏感要素的识别精度。

图3 敏感元素检测图3 敏感元素检测

对于身份证号码、股票代码等敏感要素,工行软开中心设计了一系列精确的正则表达式来提高检出率。首先利用Libreoffice框架将doc、wps、docm等各种格式的文档,统一转换为docx格式进行处理;其次,基于docx的XML结构,将文档进行深度结构化拆分,对于拆分出来的每个小部分(chunk),使用正则匹配技术查找符合特定规则的模式;最后,输出已识别的身份证号码、股票代码等具有规则化结构的实体信息。

图4 规则数据解析图4 规则数据解析

对于企业注册地址等敏感要素,工行软开中心对标业界先进经验选择LBERT+CRF模型结合知识图谱的方法来精准识别企业的省、市、区、街道等详细地址信息。在传统的BERT模型基础上引入Lexicon Adapter模块(即LBERT模型),该模块能够关联字符和词汇特征,这样,LBERT模型在预测实体时,不仅能考虑字符级别的特征,也能考虑词汇级别的特征,从而提高了地址信息的识别准确度。此外,由于地址信息可能存在因手工输入错误、历史地名变迁等导致的错误或缺失,利用地址知识图谱对LBERT模型输出的地址信息进行校正和补充,地址知识图谱按照省、市、区、街道的层级构建,并纳入了旧名、别名等信息。

图5 LBERT模型结构图5 LBERT模型结构

图6 地址知识图谱结构图6 地址知识图谱结构

3.敏感图像检测

敏感图像检测由两个关键能力组成,语义理解和图像理解。首先,利用结构化分析技术解析文档内容,将图像信息与周围的文本内容结合,通过语义理解模型分析这些关联信息,以判断图像是否包含敏感内容;其次,构建图像理解模型,直接解析图像本身内容,进一步评估图像是否涉及敏感信息;最后,将这两个模型的识别结果进行合并,确保不遗漏任何敏感图像。

图7 图像理解能力构建图7 图像理解能力构建

图8 语义理解模型构建图8 语义理解模型构建

图9 敏感图像检测调用流程图9 敏感图像检测调用流程

三、总结和展望

本文详细阐述了工行软开中心如何运用人工智能技术对行内信贷评审报告进行智能脱敏处理,通过敏感信息块检测、敏感要素检测、敏感图像检测等技术手段进行敏感信息识别,实现评审报告合规共享,从而支撑审贷人员更便捷地获取各行业的优质评审经验,提升评审质效。

在数字化转型的潮流中,金融行业正迎来前所未有的变革。工行软开中心积极拥抱科技,引入人工智能、大数据等创新技术,充分激活并发挥行内数据资产价值,不断优化和提升金融服务水平。接下来,工行软开中心将继续以积极的态度和创新的实践,为金融行业的高质量发展贡献自己的力量。

责任编辑:武晓燕 来源: 51CTO技术栈
相关推荐

2021-09-13 18:09:59

腾讯文档业务云计算

2016-12-01 13:44:19

iosandroid

2022-02-13 23:05:23

加密货币比特币货币

2021-11-17 14:28:18

区块链数字钱包数字货币

2020-09-28 10:05:57

数据工具技术

2023-09-14 08:34:28

linux架构参数

2018-01-26 07:53:46

数据脱敏数据安全信息安全

2016-11-22 09:40:08

2024-09-30 09:29:18

2009-04-10 09:42:00

数据集成业务数据路由器

2011-11-30 07:38:07

存储虚拟化

2011-03-17 12:33:56

面向对象数据库电子商务

2013-04-19 10:52:06

上海贝尔多层业务交换

2022-09-01 10:10:27

数据编排技术

2009-01-19 16:44:31

数据挖掘沃尔玛应用

2013-12-25 11:28:54

Informatica数据脱敏

2018-01-02 17:42:44

数据脱敏数据安全数据泄露

2021-09-14 23:00:04

区块链金融技术

2021-07-07 13:47:38

OCR游戏运行图像

2013-03-07 15:06:39

IBM云计算SmartCloud
点赞
收藏

51CTO技术栈公众号