在企业中操作大数据的实用人工智能技术-51CTO.COM

三大趋势的独特融合帮助人工智能得到普及应用，并使其在日常应用中无处不在——大数据、云计算和高级算法。如今，人工智能从根本上改变了软件的编写方式，并将其融入日常数字体验中，例如写电子邮件、搜索网络、购买服装、搜索和听音乐以及建立网站。不过，人工智能在制造业、交通运输、航空、发电、金融服务和其他行业的全球基础设施系统中的传播速度有所放缓。

虽然这些行业拥有大量数据，但这些数据通常是：

不属于公共领域；例如石油和天然气的石油勘探或环境影响报告。
需要知识渊博的人进行注释；例如来自燃气轮机、水泵、压缩机的传感器数据。
以多种格式保存在复杂的数据存储中，并且并不总是被清理；例如飞机维修日志或手册。

这些非常现实的挑战使得应用那些彻底改变了互联网搜索、阅读发票、翻译语言和进行对话的人工智能技术无法原封不动地应用于专业领域。

工业界的人工智能从业者意识到，传统的监督机器学习方法和来自学术界和研究的大规模模型在专业领域经常失败，这使得商业企业中大数据的操作化变得非常困难。正如Gartner高级总监分析师ChiragDekate在2019年所说，“启动试点看似简单，但将其部署到生产环境中却极具挑战性。”

各行业采用的关键不是依赖数据科学家和软件开发人员，而是授权能够深入了解流程和数据的主题专家(SME)。然而，要让发电厂运营商、金融分析师、海关代理人等中小型组织能够直观、快速地定义、构建和部署他们自己的专用人工智能，需要新的数据发现、工具、自动化和验证方法数据科学。

在企业中实施最流行的大数据形式的一些经过验证的技术包括：

通过对数字传感器数据的正常行为建模，为计划外资产停机时间创建早期预警。

工业运营通常依赖于关键的高价值资产（例如燃气轮机）。一天的计划外停机或停电可能会使电力公司或公用事业提供商损失约30万美元的收入，这对消费者的影响可能要严重得多。由于它们的关键性质，这些系统通常过度构建冗余并具有全面的预防性维护计划。具有讽刺意味的是，这使得传统的有监督机器学习变得困难，因为在系统的生命周期中很少发生故障。

正常行为建模是一种与领域无关的半监督机器学习技术，可用于通过将任何系统表示为过程参数的组合来快速建模任何系统。中小企业在历史数据中识别系统正常行为的时间范围，然后人工智能开始学习过程参数之间的潜在关系。自动编码器是一种基于历史数据训练并将潜在关系存储为一组权重的神经网络。一旦自动编码器经过训练，它就可以用于预测或重新生成输入过程参数。如果并且当过程参数的预测值或再生值与测量的历史值不匹配时，归一化误差被用作“异常”或异常的度量。

在将这种类型的正常行为模型产品化之前，需要根据系统中实际中断和事件的历史记录对其进行回测。如果选定的过程参数很好地代表了系统的行为，那么在任何中断之前，一些或所有参数应该开始趋向于异常范围。正常行为模型应该通过提高异常水平来预测这一点。如果异常级别在停电之前持续提高到足够高，则可用于为未来的停电创建预警系统。

在实践中，可以使用超参数优化自动训练数十或数百个正常行为模型。创建目标函数来衡量预测的准确性和预警的长度。这个目标函数使得以编程方式评估和排列所有模型变体并将最好的模型部署到生产中成为可能。可以添加额外的调整层，以根据异常级别和用户的偏好选择正确的动态阈值来发出警报。

与传统建模相比，正常行为模型具有以下优势：

与领域无关。只要以合理的频率和精度测量/记录过程变量，就可以使用该方法。
无监督学习。前期工作仅限于变量选择和识别标称运行条件，通常可以由中小企业执行。

使用点对点基于密度的聚类在自然语言记录中查找模式。

自然语言记录在工业环境中非常普遍，构成了产品测试、应用程序/安全日志、设备维护、物流、运输等广泛过程的基础。在实践中，企业中的大多数记录是半结构化记录，具有一列或多列结构化数据（数字、日期、类别）和一列或多列通常为人类消费而创建的自然语言文本。对半结构化记录的需求几乎在企业中出现。在理想情况下，收集的有关流程的所有数据都可以是数字、日期和多项选择分类元素。然而，在实践中，将自然语言引入记录有多种原因：

?并非所有流程模式在设计时都是已知的，导致“其他”或涵盖所有类别。

?指令或程序最好用自然语言表示，并随着时间的推移不断改进。

?故障排除、诊断、调查等通常会产生以前未知的知识，从而使自然语言成为必要。

企业的运营记录通常是功能性的/简洁的，包含拼写错误和俗语，并且通常包含首字母缩略词和行话。这使得标准搜索和自然语言建模技术有些无效。此外，可能有很多方法可以使用自然语言，因此一个全面的规范化方案是站不住脚的。例如。上述事件可以按其严重程度（即轻伤）分类，也可以按受伤点分类（即手部受伤）。这两个类别并不相互排斥，需要被视为单独的分类方案。如果没有中小企业的努力，大多数自然语言记录很少被分析并且未被利用。

在自然语言记录中寻找有用模式的一种实用方法是点对点聚类。为了检索信息，中小企业首先在他们的记录上使用常见的搜索技术。但是，阅读数百个结果通常很乏味，并且简单地消耗前“n”个结果会为错过的信息留下空间。为了避免这些陷阱，人工智能在搜索结果上应用了基于密度的聚类。当DBSCAN或HDBSCAN等基于密度的方法用于记录的句子嵌入时，它们倾向于对语义相似的语言进行聚类，而不会对拼写、共轭、错别字和口语高度敏感。中小企业可以轻松地阅读集群中的几个代表性记录以完全理解它。此外，对前“n”个集群的分析通常会暴露搜索结果中所有主要的信息模式。这些集群现在也可以成为分类方案的初始候选者，该分类方案可以逐步围绕数据创建分类结构。当无法提前准确和完全了解中小企业意图但可以随着时间的推移定义和应用时，这种技术在长尾搜索问题中不断展示出高价值。

使用发现循环从文档中检索信息或知识

为了推动关键和时间敏感的决策，每个垂直行业、政府机构和军事部门的分析师都会遇到大量需要处理的内容。高管们依靠分析师准确解读报告、新闻、咨询和调查，从而为自信、深思熟虑的决策提供决策支持。通过探索性阅读来寻找正确的内容在认知上是一种负担，并且会造成决策疲劳。此外，分析师通常会探索难以使用标准搜索工具所需的关键字和逻辑规则清晰表达的深奥概念。”

在考虑上述新闻摘录中的叙述性文本示例时：

第二个示例实际上没有使用“爆发”一词，但中小企业可能会很快将其评估为爆发的领先指标。为了解决这些深奥的知识获取场景，中小企业首先使用代表他们想要找到的想法的多个关键字之一来搜索他们的文档。DiscoveryLoopAI然后从结果中选择25-50个最具代表性的句子，并通过简单的点击手势，使中小企业能够将结果分类为一个或多个有意义的类别。或者，中小企业也可以从句子中指示子串以逐字提取。人工智能训练一个CNN分类器来学习中小企业分配的类别。任何未分类的句子都会自动分配到“不感兴趣”类别。如此训练的模型对原始搜索结果中的所有句子进行推理。基于推断的类别预测及其相对预测置信度，人工智能呈现至少2组句子供中小企业审查和/或纠正——基于分配的类别标签“最像标签x”和“最不像标签x”到最初的25～50个句子。由于人工智能只训练25～50个句子的模型并对搜索结果进行推理，因此循环通常只需几分钟。同样，每个审查组每个只有25～50句话，只需要中小企业几分钟的审查。这种快速迭代被称为发现循环，它使中小企业能够快速发现信息，而无需关注关键字，而只需阅读和做出重点决策。随着中小企业管理更多的标记句子，人工智能重新训练分类或提取模型以提高准确性并通过使用从标记句子中提取的关键字执行查询扩展来增加文档集的覆盖范围。在任何时候，模型都可以针对文档集中的所有句子运行，以获得与中小企业定义的深奥概念相匹配的综合句子子集，然后可以在分析师报告中作为证据引用或引用。

与经典的监督分类方法相比，点对点基于密度的聚类和发现循环都具有以下优势：

减少传统方法所需的繁琐、全面的标记负担.
使中小企业能够在发现新信息时逐步开发类别.
使中小企业仅对有用的数据子集进行建模.

所有技术的一个共同特点是利用人工智能增强中小企业的知识和直觉，使他们能够专注于高价值的决策。通过避开学术界流行的经典监督建模方法，这些技术通过在SME的指尖提供即时智能，专注于快速实用性。