美国劳工统计局使用机器学习自动执行数据编码-51CTO.COM

政府机构永远充斥着各种文件，其中又不乏大量纸质文档；即使是对于电子文档，实际处理与解读仍然需要耗费大量的人力。为此，联邦机构寄希望于AI技术，即通过高级机器学习、神经网络以及自然语言处理（NLP）技术帮助改善这类文档的处理效率，尽可能将宝贵的人力资源解放出来。虽然其中不少技术在其他行业中早已拥有成熟的应用，并被拓展以增强各类工作流程及任务，但在部分政府部门内，这些技术还完全属于新鲜事物。

以美国劳工统计局（BLS）为例，该机构的主要职责在于执行职业伤害与疾病调查，以确保各类工作场所中常见的健康危害问题并协助制定指导性政策。为了完成这项任务，劳工局在全国各地的办公室中设有数十名训练有素的员工，专职通过工作场所内的调查数据对各类伤害及疾病进行分类。但是，这方面工作一直以手动方式执行，并导致各类标记、编码错误乃至速度与成本瓶颈一直妨碍着整体流程的效率提升。

[[339388]]

▲ 图：Alex Measure, 美国劳工统计局经济学家

为了简化整个流程，劳工局决定引入机器学习技术。约十年之前，劳工局经济学家Alex Measure决定探索机器学习（ML）技术如何帮助该机构改进流程效率，他本人也与我们分享了将AI技术纳入劳工局乃至整个联邦政府当中可能出现的独特挑战、各机构在AI应用过程中面临的数据难题、外加未来几年内他最为期待的重要发现。

在本文中，我们将一同了解他对于将机器学习应用于政府业务场景，特别是文档与人工流程中方面的宝贵见解。

问：劳工局在数据收集与处理方面面临的特殊挑战是什么？

Alex Measure: 劳工局需要面向众多方向收集大量专题信息，具体涵盖就业、人力成本、工作时间以及工作场所伤害风险等各个方面。在调查当中，各领域间唯一的共通点在于，调查结果往往以自然语言的形式存在。在信息收集过程中，无论是采取访谈、调查或者还是其他方式，收集到的大部分内容都是以语言形式传达。为此，我们需要将语言转换为统计数据，这就是我们常说的编码过程。

在此过程中，我们需要分配标准化分类指标以指示值得关注的关键特征。例如，《职业伤害与疾病调查》每年收集数十万份与工作相关的伤害与疾病调查资料。为了回答诸如“门卫人员在工作中最常见的伤害原因是什么？”这类问题，我们需要认真阅读每一份描述，以编码方式将对方的职业与造成伤害的因素关联起来。接下来，我们汇总结果信息以回答实际问题。直到最近，整个流程仍然相当枯燥繁琐，而且大部分工作需要以手动方式完成。

在职业伤害与疾病调查方面，我们每年大约需要25000个工作时。如果希望尽快完成任务，则意味着需要同时雇用更多人力、培训更多新雇员，并保证他们能够以统一的方式对内容做出解读。这相当困难，实际上我们发现，即使是两位同样经验丰富的专家，在编写同一份伤害说明材料时也只有70%左右的几率针对相同的素材给出完全相同的伤害编码分类。这样的挑战不仅存在于劳工局之内，也广泛存在于全球各类从事类似任务的组织当中。

问：那么劳工局是如何使用机器学习技术解决这些问题的？

Alex Measure: 七年之前，劳工局完成了《职业伤害与疾病调查》的全部编码工作。过去一年中，我们使用有监督机器学习（特别是深度神经网络）自动完成了超过85%的处理任务。随后，劳工局开始逐步将这些技术用于处理其他相关任务，涵盖从职业/生产分类，到医疗福利及工作要求的各个方面。

问：多年以来，劳工局对于AI技术的看法与应用方式经历了哪些转变？

Alex Measure: 我加入劳工局大概是12年前，那时候人们主要还是在用知识工程或者基于规则的方法进行素材编码。其中的基本思路是，如果希望计算机执行某项操作，则需要明确告知它执行任务所需要的每条规则与信息。例如，如果要对职业进行分类，则可能需要创建一份清单，列出所有可能出现的职称以及与职称相对应的职业代码。

这种方法在处理简单及标准化任务时表现不错，但遗憾的是，即使是在职位分类这种相当具体的应用领域当中，系统也几乎无法直接处理人类语言。例如，在《职业伤害与疾病调查》中，我们发现每年收到的职位中约有2000种被系统直接对应为“管理员”。更糟糕的是，总会出现某些以往从未出现在数据中的新职位，而且部分职位与所在行业紧密相关，具体取决于特定企业的命名惯例或者行业中的传统用语。结果就是，我们需要制定体量庞大且相当复杂的规则，而这一切最终也只能支持840多种职业分类。更要命的是，这套系统的构建与维护都极为困难。

有监督机器学习带来了一种替代方案——相较于明确告知计算机其需要了解以及执行的任务内容，现在我们可以引导计算机通过数据进行学习，由其自主找到执行某些任务的最佳方法。只要大家拥有成规模的数据素材（多年以来，我们已经积累到可观的数据资源），那么往往只需要很少的人工投入就能构建起一套效率极高的系统。在我们的案例中，劳工局在短短几周之内就使用自由开源软件构建起我们的第一套机器学习系统，并发现其性能远远超越我们以往长期使用的、基于规则的昂贵方案。更令人惊讶的是，其性能甚至比我们的编码员还要高。

与传统方案相比，机器学习方法也给自动化带来了更多发展空间。如今，劳工局与全球各统计机构已经在类似的任务中迅速推广此项技术。当然，机器学习在其他领域也拥有良好表现。我们正使用机器学习技术自动检测数据错误，并自动匹配并标记数据集中的缺失记录。这对我们可谓意义重大，能够帮助劳工局通过更多不同来源收集到大量数据。

问：AI/ML技术的介入，给原本的编码员们带来了怎样的影响？

Alex Measure: 在最初考虑引入自动化解决方案时，人们普遍感到担心，不少员工抵制自动化并将其视为一种威胁。但实际情况并非如此，我认为这得益于我们采取的具体实施方式以及对整体状况的综合考量。首先，我们很早就做出决定，将自动化的重点放在提高数据质量方面。这非常重要，因为除了数据质量本身的意义之外，这也代表着一种非常新颖的处理方式，要求我们保证编码流程的正确执行、并在出现问题时及时启动预先制定的可靠备份计划。我们的规划基本如下：

第一，将计算机最擅长的工作交由自动化处理，将人类最擅长的工作留给雇员。

第二，逐步引入自动化机制，保证员工有时间适应工作量与工作方式的变化。

第三，由雇员负责监督自动分配的代码，并在他们认为计算机存在错误时分配人员做出调整。

第四，将节约下的资源用于其他重要任务，例如数据收集与数据审查。

结果就是，在随后的六年时间里，越来越多的常规编码工作逐渐被速度更快、质量更好的数据审查与收集自动化方案所接管。这还带来令人意外的结果，即我们对常规手动编码的需求虽然大大减少，但模型无法处理的高难度情况仍然依赖于人类专家。因此，自动化程度越高，能够处理的总数据量就越大，其中需要人为介入处理的数据同样更多。结果就是，负责人为调整以及验证机器学习系统是否正常运行的雇员反而有所增加。

问：您能否分享一些在劳工局的应用场景中，AI技术发现的有趣或者令人意外的洞见？

Alex Measure: 就个人来看，我认为这里有两个令人印象深刻的惊喜。首先就是自由开源软件的存在，居然让机器学习系统的构建变得如此轻松，且实际表现远优于我们以往使用的高成本、基于规则的方法。第二点在于，这类系统在编码分配准确率方面比经过培训的人类编码员更高。这一切都是我们刚开始难以想象的，事实上整个劳工局都花了一段时间才适应如此出色的效果，而且其结果确实非常稳定。

平均来看，我们的机器学习系统自上线以来就一直在编码准确率方面超越了人类雇员，而且二者的差距随着大量数据的涌入以及随之进行的后续训练而越来越大，这也促使我们逐步转向更强大的机器学习算法——例如深度神经网络。

问：我们在数据使用方面面临着哪些独特挑战？这些挑战是否会成为政府机构在使用AI技术方面的障碍？

Alex Measure:最大的挑战之一在于数据保密性。机器学习需要大量数据，政府机构则拥有着丰富的实用性数据，但却不能任意公开加以使用——这无疑限制了各机构使用机器学习技术的具体途径。例如，在我们第一次尝试使用深度神经网络时，我们无法直接使用云资源，因为现有政策对此明令禁止。这就构成了大问题，因为劳工局自身显然没有充足的硬件以训练我们需要的各类神经网络模型。最终，我们通过内部采购及安装必要硬件解决了这个问题，但相当一部分其他机构恐怕难以跨过这道门槛。

另一大重要挑战在于模型共享。当劳工局开发出能够自动对职业或伤害进行标准化类别划分的机器学习模型时，这一成果不仅能够服务于劳工局自身，对于其他处理类似任务的联邦机构也同样意义深远，甚至能够给外部研究机构及研究人员带来巨大帮助。由于我们掌握着大量相关数据，因此劳工局等政府机构在训练这类模型方面拥有着特殊的优势地位。但有研究表明，这类模型可能在无意之间透露出训练过程中所使用的的数据信息，这就要求我们在模型共享方面小心再小心。近期其他研究表明某些技术有望缓解这些风险，劳工局已经开始进行探索，但这仍是一项极为艰难的挑战。

问：从更广泛的角度来看，联邦政府中的哪些领域有望在AI技术的推动下实现显著的效率提升？

Alex Measure: 我在政府机构工作的时间不短了，在我看来几乎每个联邦机构都有望利用有监督机器学习技术，实现相当一部分日常任务的自动化转型。统计机构就是最典型的一例，他们的主要工作内容就是语言编码与分类。目前，越来越多的统计机构已经在使用类似的技术自动检测错误，并匹配来自不同数据集的记录内容。

问：联邦机构可以采取哪些措施以吸引那些具备技术创新能力的高水平劳动力？

Alex Measure: 我认为联邦机构最好的人才吸引方法，就是强调使命感与荣誉感。联邦机构关注的往往是那些最重要的任务，一旦成功将造福整个国家，这对于具有强烈公民意识的人才极具吸引力。毕竟有意义的项目可不是那么容易接触到的。我还想强调的是，外部招聘并不是吸引熟练劳动力的唯一途径。劳工局的不少编码项目及后续机器学习尝试依靠的并不是外部AI专家，而是经过培养、对于自动化技术抱有浓厚兴趣的内部雇员。当然，在此期间Coursera等免费在线教育资源也发挥了重要作用。

劳工局之所以能够走通这条道路，是因为员工已经在统计领域拥有丰富的经验。可以肯定的是，成功的机器学习项目既需要强调技术的一面，也需要关注专业知识方面的积累。政府雇员对专业的认识已经非常深刻，互联网上又有着大量能够自由获取的资源建立技术基础，二者就这样和谐统一了起来。

问：展望未来几年，您最期待哪些AI技术成果？

Alex Measure: 我的工作主要依赖于有监督机器学习，但其中仍存在着一大局限。我们需要丰富的训练数据才能获得良好的性能，这里说的不是少量数据，而是体量庞大、远超普通人学习所需的数据集合。在大多数情况下，我们需要为模型提供成百上千的训练数据示例，才能让其掌握一种相关概念。这是个巨大的障碍，因为大多数应用场景中并不能提供这么丰富的数据。

过去几年当中，研究人员们已经在这方面取得了巨大的进展。这种进展主要来自两个方面：

其一是迁移学习，即将一项任务中学习到的知识转移到另一项任务上，有时候人们也将其称为自我监督学习。这基本上就是将有监督学习技术应用于无明确标记的数据。最近，一种流行的自我监督语言任务开始被人们所重视，即首先收集大量文本、而后重复采样其中的部分小规模子集、隐藏采样中的某些单词，训练模型根据上下文预测缺失的片段。只要能够正确完成这一操作，我们即可获得一套对语言拥有深刻理解的模型，且不需要任何显式标签。接下来，我们就能通过迁移学习将该技术应用于指向不同语言处理任务的模型，例如预测伤害分类等。如果一切顺利，那么其能够显著降低任务自动化所需要的训练数据总量。这无疑为目前由于缺乏训练数据而无法实现自动化的众多应用场景，打开了通向机器学习的大门。

我们关注的另一个重要领域在于差异化隐私，其在AI内部与外部皆有应用。最新进展已经带来一种全新机制，能够在实现机器学习模型共享的同时，为基础训练数据提供严格的隐私保护。一领域的进展有望加快受信数据收集方之间的自动化成果流通（例如经过训练的机器学习模型以及统计估计值），同时提升基础数据的保密性水平。