甘颖涛：工业大数据和人工智能技术在智能制造领域的应用|V课堂第45期-51CTO.COM

11月10日，江苏省企业信息化协会总群迎来第45期“智造+V课堂”。本期“智造+V课堂“邀请了北京水木联合科技有限公司总经理甘颖涛为大家带来主题为《工业大数据和人工智能技术在智能制造领域的运用》的精彩分享。

一、嘉宾简介

[[180020]]

甘颖涛(北京水木联合科技有限公司总经理)

个人简介：

1、现任北京水木联合科技有限公司总经理;

2、曾在IBM、中国惠普、EMC等国际知名IT公司任职;

3、北京大学光华管理学院MBA;

4、北京工业大学自动控制专业学士学位;

公司简介：

水木联合公司是国内领先的工业互联网领域人工智能解决方案提供商，用自主研发的大数据分析平台和算法模型为转型发展中的制造业企业提供预测性质量管理、安全风险预警、设备预测性维护、精准营销一体化等解决方案。

二、主题

演讲主题

《工业大数据和人工智能技术在智能制造领域的应用》

演讲大纲

1)工业大数据的概念、特点和战略思考

2)工业大数据商业价值实现路径

3)抓住人工智能的浪潮，实现制造业转型

4)解决方案和案例分享

三、原文实录

原文实录：

江苏省企业信息化协会总群的领导和朋友们大家晚上好。非常难得有这个机会能够在群里跟大家汇报一下我们工作，大家有问题我们可以热情的讨论，那接下来我就大概一个小时左右的时间，跟大家汇报一下我们在工业大数据，和人工智能技术研究和应用方面的工作，以及我们在智能制造领域的一些体会心得、和实践经验。大数据这个词前一段非常火爆，大家可能经常看中央电视台，也听到主持人经常提到这个，根据大数据分析非常热闹，但是大数据往往是跟消费互联网是紧密结合的，所以国内目前有数十家专注做大数据的公司，也主要是针对电商，舆情数据，社交平台的数据进行数据的采集和处理，真正把大数据技术应用在工业领域进行业务分析的并不多，我们是比较先进的一家，比较领先的一家，我们一直专注于用统计数学分析的方法和技术，帮助客户理解和应用工业大数据!

其实，最近工业大数据分析的应用也很受到投资圈的追捧，大概在去年下半年，今年的上半年和年终，大概陆续有几家都得到了大概几千万到上亿元的这个融资，所以说明这个市场在快速蓬勃的发展，什么是工业大数据?我想先把工业大数据的概念跟大家分享一下，工业大数据的概念首先来自于2012年美国通用电器，GE公司发布的工业互联网突破机器与智慧的界限研究报告，报告中指出工业大数据是在工业领域相关自动化和信息化应用中产生的海量数据!其实我们理解具体来讲，工业大数据包括比如说设备数据、传感器数据、仪器仪表数据等持续数据，也包括了涵概设备设施的时序数据，地理信息坐标的时空数据，还有运营系统中的订单质量检测数据以及第三方的天气环境数据等。也就是说它包括了企业内和上下游的产业链，还包括外部来自市场、用户和环境的数据等，提法也基本可以明确我们所说的工业大数据和工信部、江苏省经信委提倡的两化融合在数据层面的理解是统一的。从目前来看，我国制造业企业对工业大数据的采集、挖掘和利用，还处于早期阶段，应用水平的差别很大。

但是我们看一看美国的情况，麦肯锡在2012年的一份大数据报告中指出，在虚拟经济占主导地位的美国，其工业界蕴含的数据总量反而是巨大的，大家可以看一看这张图，美国离散制造业他存储数据的总量已经达到了966个TB，位于美国各个行业的***位。相反美国政府以848个TB居于第三位，第三位是通讯和媒体，第四位也是制造业是流程制造业，数据总量达到了694个PB，我们原来认为数据使用保有量***的银行业只排在了第五位。

这个调查结果说明工业数据的主体也就是由机器设备所产生的数据量，远远超过其他行业，以人为主产生的数据，正是因为有了这样巨大数据基础，以美国GE公司为主的制造业巨头，提出了工业互联网的概念，而工业互联网的三大要素分别是智能联网的机器，人与机器协同工作，以及先进的数据分析能力，目前全世界最成功的工业大数据分析和实用应用的实力是GE公司的Predix云平台，它在高度安全的工业集云环境中捕捉和分析海量高速运行，类型多样各种机器产生的数据，Predix 2014年他的全年收入是40亿美元，2015年是在60亿美元，2016年应该还是有一个很快的增长。工业数据大数据的价值巨大，结合到国内的制造业企业，工业大数据具体有什么用?其实大家还是有不少困惑的，所以我想在详细介绍工业大数据的概念，战略，特点等等之前呢，先跟大家分享一个案例，给大家一些直观的印象，这些工业大数据能怎么用?这个项目的客户呢是一个国内的一家大型的钢铁企业，他们在生产自动化企业信息化方面已经做了很多年的投入，SCADA系统，MES系统，EMS系统，他们都已经建立了，也就是说基本上达到了已经达到了我们两化融合一个基本要求的标准。因此数据基础比较好，但是客户为什么找到我们来做这么一个项目呢?其实，客户这个钢厂有一个厚板部，在厚板生产和销售中一直有一个问题困扰他们，就是厚板的应力残留问题，厚板生产出来他们的客户主要是造船厂，船厂对厚板的品种度要求非常高。一旦发现交货交过来的厚板呢，如果里边有残留应力引起变形，船厂就拒绝是无法使用的，他就会要求钢厂退货，或者降低产品的质量等级进行折价销售。也是就说钢铁行业中的这叫质量损失，为了减少质量损失呢，这家钢铁企业在完整的厚板生产工序后边又加了一道冷矫工序，也就是在厚板经过传统的加热炉、粗轧、精轧、冷却后，又增加了一道新的工序，用冷矫机对厚板进行残留应力的释放。

企业希望通过这种冷矫，释放在加热和轧制过程中，积攒在厚板中的内应力，但是，其实大家得知道这个冷矫不是必需的，它费时费力，而且影响交货时间，给企业增加了成本，本来现在钢铁企业经济效益就很差，利润就很低。如果再加上这道工序，基本上可能就从赚钱变成亏钱了。而且，在实际运用中，哪些板子要上冷矫机，也完全凭生产人员的经验判断。其实只要生产过程中控制的好，是可以避免使用冷矫这道工序的，因此，客户给我们提了一个要求，让我们来解题。这个题目中客户希望我们结合厚板的生产信息，和内应力变形的这个客户投诉的问题信息，建立厚板这个应力残留与否的预测模型。从而减少客户的投诉，并以此预测的结果为依据，决定厚板成品是否要进行冷矫，取代原来完全凭经验、凭人工判断的这个这种情况!我们首先判断呢根据企业的生产经验这个题是可以解的，熟悉钢铁生产领域专家都知道，任何内应力其实你都是很难做到完全释放的，只不过是释放的大小和快慢的问题，那么这个区别就决定于生产过程是如何生产的?

所以，生产信息和残留应力引起的质量问题投诉之间一定有相关性，接下来呢我们看了一下客户提供给我们进行建模数据的情况，客户提供给我们大概他们最近4个月，没有做冷矫的1800条子板的生产信息，和质量投诉信息，这1800条是没有上冷矫机的，在这1800条子板中呢，后来我们知道被客户发生质量问题损益的有23条，客户提供给我们的生产信息呢包括板配的加热信息，扎制的道次，热矫冷却信息，厚板质量检测信息等100多个信息。其实这些信息拿来数据的情况并不乐观，我们在做这个项目的时候，其实有两个挑战，首先***个是如何处理不均衡性?不均衡的问题，对于1800条子板中出现质量的只有23条，我们一般把出现质量问题的叫正样本，这个正副样本的非常不平衡，需要在分析过程中生成填充数据来平衡样本。

第二是如何处理变量的强相关性?每个子板它经过了多道的热加工粗扎、精扎工序，每道工序之间它从工艺上很多是强相关的。那你怎么能够判断出哪些变量是直接影响了他的这个内应力的问题?所以，要解决独立这些变量中的相关性问题，必须用合理的算法辨识影响分析结果的独立变量，在对业务要求和数据有了初步理解后，我们开始按照我们的大数据挖掘计量模型方法论对数据进行分析处理。首先我们把这1800条没有经过冷矫的子板数据进行拆分，其中70%用来做我们的模型训练，另外30%用来做模型验证。用来验证的这个30%的子板数据，我们要求客户结果先对我们保密，等我们模型建成后，再将我们模型预测的结果与实际情况进行比较验证，我们对客户提供的原始数据进行了清洗、加工、填充空缺值，设置默认值。同时由于有问题的厚板过少，正样本过少，我们也采取了一些数学的方法处理。

我们也在过程中跟客户的业务专家沟通，去理解数据，建立数据的表征特征，建立分类模型，在这个项目中我们采取了随机森林、逻辑回归、拉锁算法这几个分类模型，并且把分析100次的随机模型进行模式的比较和评价，最终确定了用来预测的模型。

***当我们把这模型固定下来以后呢，用剩下的30%子板的数据拿出来验证，我们把这30%子板每条板生产信息作为输入数据进入模型，然后经过计算给出明确的预测结果，判断这条子板会不会因为有应力风险引起质量问题投诉，最终我们的模型效果还是很不错的，大家可以看看下面这张图。从这张图大家可以看，验证子集一共是537条子板，我们通过我们的模型跑出来，我们预测没有质量风险的是521条，实际证明也全部正确，也就意味着这521条子板根本不需要上冷矫工序，我们预测有9条子板有质量风险，应该上冷矫机。事实证明其中6条最终因为没有做冷矫，而发生了质量投诉。

我们预测没有风险，但却最终发生了质量投诉的子板只有一条。从模型的评价曲线来看，我们可以看AOC就是叫曲线下面积这个指标，我们达到了0.9729，其实一个模型大概在0.8以上也是算是不错的，我们做到0.97这个结果还是很令人满意的，也就意味着如果客户，也就意味着这个钢铁企业客户最终在他的生产中，运用我们这个模型，根本不用凭经验。像原来一样把40%的厚板成品全都上冷矫机，只需要经过我们这个把他们生产信息，这个厚板生产过程中信息倒过来，经过我的模型算出来，预测模型判断出哪些会出现质量问题的风险的子板，加一道冷矫工序就可以了，就可以大大规避质量损益的发生，可以节省大量的成本，也节约了交货的时间。

同时，我们还给出了与残留应力质量投诉相关的所有重要性的独立变量，并将这些重要性进行了排序，那就意味着客户，下面这张图可以看出来，也就意味着客户今后通过对这些变量进行合理控制，就会降低残留应力带来的质量投诉量。我刚才是跟大家分享了我们做一个实际的案例，其实就是数据分析是不是能够帮到工业企业，对这些工业大数据分析它的价值?又使用到它的价值。

所以工业大数据其实是有巨大的挖掘利用前景，因此我认为工业大数据对每个企业来说，在战略层面上都要充分重视，但是战略层面的考虑，其实经过我们这一段时间的实践，我想跟大家分享有三个方面需要考虑。首先***点，就是目标必须明确，业务充分参与，从战略层面上企业建设工业大数据平台必须业务目标明确，必须有业务部门的充分参与，咱们群里我知道是有很多企业的CIO，我认为大家认识到这一点更为重要，在我的职业生涯中呢，其实我跟很多的企业的CIO做过交流，有咱们制造业企业的，也有银行运营商的电信运营商的CIO，大家共同的一个认识这么多年，就是一个优秀的CIO其实是整个IT部门和业务部门的桥梁。这个桥梁至关重要，对于工业大数据平台项目的上马，企业的CIO更需要战略视野和协调能力，工业大数据项目对企业来说它不是一个简单的信息化建设，也不是一个业务部门能提出复杂明确的需求，然后依托一个集成商作为一个交钥匙的项目，企业的工业大数据通常与企业智能化转型、制造转型的大战略是密切相关的。

其实大家看看GE就可以知道，GE这些年他在工业大数据在智能化、数字化、互联网化转型方面，做了巨大的投入，很多产品在设计的时候就已经在考虑传感器和互联网化的设计，而这么大的投入，贯穿全生命周期的投入，必须是在董事会和CEO的层面的决心和支持下才可以实施的。其实大家前一段可以看到，关于GE有很多新闻，有一条就GE他卖掉了他赚钱的集中服务部门，但是，他却坚持在产品智能化和服务化方面进行投资，在工业大数据的分析和应用的领域方面进行投资，这种战略眼光是非常有前瞻性的。

所以，从Predix成功也可以看到，执行的效果也非常好。包括我前一段看到对GE的CEO有个采访，他也谈到了：这个决心对GE是下了很大的决心的，因为整个的投入其实也是很大。但是他们从目前来讲他们的转型他感觉是很成功的，其实在国内大家也可以看到，在我们身边随着一带一路政策的推出，像江苏的徐工集团，像三一重工，他们这些先进的装备制造商也开始纷纷推出自己的智能装备的产品。并且，开发基于自己产品的工业大数据、云服务平台，进行数字化、服务化转型，提供主动性的、预测性的设备维护，这也是在公司整体战略下、指引下实施的。所以，这是我谈的***点，目标必须明确，业务充分参与。

下面我谈谈工业大数据项目的战略第二点，企事也很重要，就谈到架构整体考虑应用小步快跑，这一点其实我认为也是传统企业在实施互联网加的这个战略中的一个通用的战略。也就是利用互联网先进的技术体系和快速迭代的应用方式，来实现大工业大数据平台的建设。很多CIO跟我讲，他觉得很多工业大数据平台，动不动投资都很大，规划也很大，但是企业或董事会过项目的时候大家问，到底有什么效益?有什么效果?这样鸡生蛋，蛋生鸡的问题其实让CIO也很难办。

那我觉得其实具体来讲，整个企业的工业大数据的平台的建设要分两层考虑，***层是大数据的平台架构，平台架构设计上确实要充分考虑工业大数据的特点，那么接下来我待会会详细讲进工业大数据的特点是哪些?采用这种开源的技术整体设计，第二点就是在设计整体考虑的时候，平台之上的大数据应用更要关注的是如何快速的将数据价值变现，其实大家从我刚才讲的钢铁企业实力可以看出来，其实在一个企业里边，需要用数据分析来解决的问题，只要你去找有很多、很多。我们是不是一定要在解决实际问题，一定要想一个大的问题呢?不用，其实把很多具体业务问题都可以用数据来解决，这就是我谈的大数据平台搭建好以后，设计好以后，我们要看怎么能够快速将数据价值变现，这一点至关重要，然后就需要选择有业务价值业务场景，想明白一个做一个，不要图大，小步快跑，迅速见效产生效果，让业务部门让决策层真正看到企业所拥有数据的价值。这是我讲的第二点就是工业大数据的应用不要图大，不要图高端，要从解决业务的实际问题入手，而且不断的快速迭代，小步快跑。

第三点，我想谈的就是这个第三点的战略要考虑的一点，就是要数据尽早收集，人才系统培养，工业大数据系统，大数据要尽早收集，即便今天的大数据平台还没有建好，也非常有必要把生产过程中的各种各样的数据存回来，而且全面了、全十以无损的形式存储起来。2015年GE公司将其***一批发动机的诊断数据，从30年前旧系统迁移到了现在的Predix数据平台，也就是说在目前大约有35000台发动机会将起飞、巡航的关键飞行阶段数据包括传到Predix平台，其实这些数据它的价值，它就像这些有价值的数据就像河流一样，流动的河一样，如果你没有加以保留，这些数据就会悄然的溜走，它无法形成有价值的数据资产，目前的技术其实已经给我们提供了很多的选择，即便暂时没有架构，没有平台，也完全有办法把数据留下来，而不让数据流失。

我们是因为专业从事这个领域工作的，我们特别深有很深的体会，数据是一切的基础，没有数据再先进的软件平台和算法都没有用武之地，这些数据就像待开发的矿产资源，它现在只是它现在埋在地下你不知道怎么挖掘它价值罢了，在这之前先把这地圈下来，先把数据保留下来，如果要开发工业大数据的价值，企业还有一点在企业战略上要考虑的，一定是要进行人才的培养，其实如果我们现在去看欧美企业的人才构成，我们会发现每个企业都有大量的数据分析员，数据分析师，数据科学家。其实这些人才你看欧洲和美国的企业，这些人才不仅仅是在谷歌、Facebook这样的互联网公司，在传统的制造业企业、物流公司、医药公司里都大有人在，我记得上次我跟南钢的一位领导在交流的时候，领导专门提到南钢以后要有自己的专业数据分析人才，目前现在南钢的研发团队，主要是以钢铁工艺专业为主。领导认为这种研发团队肯定是不够的，一定要引入大量的统计数学分析人才，从数据角度发现问题、解决问题，让这些数学专家和钢铁工艺的专家结合在一起，来解决生产运营中的问题。

从国内来看大数据分析人才的系统培养，其实也刚刚开始，所以我正好利用这机会跟大家大概分享一下，在这块人才培养一个现状，据我了解清华和北大以前主要是在研究生和博士生的培养计划，培养方向上面，来培养大数据的分析人才，而且基本上是从应用数学专业衍生的数据分析专项。但是在最近两三年，清华北大已经开始建立了大数据分析本科专业，上周我们还在跟北京邮电大学的老师们交流，北京邮电大学今年也成立了大数据中心，从今年9月份的新一批学生入学开始招收大数据分析的本科生，而且，教委和学校还给了一个很好的政策。让北京邮电大学设立了一个3+1+3培养计划，也就是大数据分析的专业的学生本科念三年，研究生念一年，博士念三年，本硕博连读，之后得到大数据一个分析博士的一个培养计划，我们今年也在与大学合作，正在向人保部申请设立数据分析师一个技术能力认证体系，开展相关的在职培训。由此可以看出，大数据分析应用人才的培养，是企业战略转型一个重要支点，刚才我大概结合我的工作实践的理解，对工业大数据的概念，工业大数据项目实施的一些战略思考，提了一点我的意见，那下面内容可能比较技术一点，我想主要谈一谈工业大数据的特点，其实工业大数据它之所以叫大数据，那从大数据的思维就是我们说的4V来看，它全都具备，它的数据规模大，处理速度快，数据来源和样式多样化，数据价值密度低，特点非常明显。

但是为什么我们专门要今天来谈工业大数据呢?其实，工业大数据和消费互联网上的商业大数据的应用的特点还是有很大不同，下面我简单的介绍一下，这是两者的研究对象不同，其实大家都知道工业领域是以物理系统为中心的，我们研究的对象是材料、工艺、设备、能源、环境等因素，研究物理动态过程中的规律和因果关系。商业大数据主要是研究人，研究人在互联网上的行为，研究人的流程。理解他的行为模式，那这两者其实有一些是有相融合趋势的，比如说我们现在都熟悉的消费电子品，消费电子产品，还有我们比如说了解一些智能家居产品，那么用户在使用的时候，整个大数据的运用贯穿产品的设计研发生产销售和服务，整个全生命周期，两者开始融合，但是对复杂的工业，比较复杂的工业，比如说装备制造，比如说我们非常熟悉的基础工业，两者的差别是非常明显的。

其次两者的基础不同，在工业领域其实首先大家熟悉的是不同行业存在的这种大量的中观和微观基理模型，所谓基理模型就是以工艺原理为基础，是人们经过多年对生产过程的深入研究，经过大量的在实验室的实验，逐渐形成对模型的认识。客观来讲这种机理模型的这种优化和突破难度也很大，那工业数据中体现出的规律呢，其实也常常难以突破现有生产技术人员的认识范围，所以才需要通过大数据分析的手段，让大家去找到数据中的价值。但与之相比商业领域中，其实仅仅存在一些宏观的理念，它可以定性描述人的一些行为偏好，经济活动规律。

通过一些统计趋势的一些大数理论，就可以给他大数据分析带来提升的空间。第三点就是两者这种技术带来驱动力不同，其实现在工业大数据，它受感知技术受我们了解的物联网技术的发展，包括我们国家现在提出的5G通信网络技术的发展，对它都是很大的促进。但商业大数据更多的是互联网的发展，它为企业带来与客户交互的一些新渠道，所以互联网的发展极大的促进了商业大数据的发展。那么工业大数据其实它大多具有的是一些，具有时空信息的结构化数据，这也它跟商业大数据区别很大，商业大数据在互联网上很多的是一些非结构化的文本、视频，那么所以这也是两者在驱动力上的不同，***两者对分析技术要求也不一样，其实从这一点大家可以看到，对商业大数据来讲，大数原理、大数原则，一些相关性法则，概率性的分析，其实就已经可以帮助客户做很多有针对性的这种运营的提高。

但是对工业来讲还不够，对分析结果要求精度非常高，动态性很强，实质性高，很难接受一些概率性的预测，就好比我刚才给大家讲的这个例子，我如果要预测一个厚板的会不会有残留应力，产生这种质量的风险?我必须要模型算出来就要告诉客户有，还是没有，我不能只给他一个概率。那么，这也是两者一个很大的区别，大概讲了讲工业大数据和商业大数据的区别，那其实称作工业大数据，那我们在分析的过程中其实我们也经常遇到数据，工业大数据里边一直有一个小与大的矛盾，那这里我大概跟大家也分享一下，我想这也是我们在工作中的一个独特的体会，其实工业大数据刚才我们谈了大致它一个首要的特征，这一点大家都很理解，因为动不动一个工厂的数据采集点，就可以几千个，甚至到几万，几十万个，几百万个不止长期不停的不间断的工作，在化工行业采集频率有的可能到毫秒级，所以数据量非常、非常大。

这些数据的如果要对历史数据进行全量分析，那么你知道，其实我们都知道企业的这种制造业企业的，产品寿命周期是比较长的，这些设备的折旧周期也比较长的，这样长时间高频采集的机器数据量是非常巨大的。可以达到数百TB到PB的存储量，所以，另外其实大数据里边还来自于比如说我们还要再分析的时候，还要集成来自ERP这种新系统的关系性数据，设计研发时候产品图纸、工艺文档、加工代码这些非结构化数据，甚至于我们在做比如说产品的全生命周期的分析的时候，还要去结合一些产品销售在互联网上的一些口碑，非结构化数据，半结构化数据这些，所以确实工业大数据一个特征。但是他在分析时候我们经常感到，工业数据的不够用，那我想举出下面几点，以后大家在实践中的时候可以作为参考。

***点，就是对分析有直接意义的样本比例通常很小。工业的运行其实是有一个常态模式的，其实工业运行的目的是希望是一个不期望干扰因素有很多，他希望他的质量稳定，希望工业这种自动化生产比较稳定，所以它对不期望干扰因素会进行很多的压制，造成绝大部分数据，其实都是在对应非常相似的这种环境与过程。但是你知道我们在做分析的时候，就像我们刚才谈的钢铁企业的例子，客户总是让我们希望找到有没有故障?有没有不良率?有没有异常行为?这就我刚才谈到的其实从数据分析的层面来看，这种样本是非常少的，有的是大量的常量和稳态数据，也就造成了样本不平衡性不平衡程度非常高。其实，而且在工业体系还有一点不同，就是他实验成本有的会蛮高，能做的实验其实在做机理模型的时候很多都做到了，但是如果我们专门针对一些故障分析，质量的不良，来做试验的话呢，其实它的实施成本和风险都蛮高的，所以我们在做分析的时候，我们常常会发现工业大数据，即使数据量很多，也很难提供给我们足够的异常的情形样本，这是***点。

第二点，就是谈到大数据它永远是物理世界的小样本。其实我们现在已经采集了很多数据，我们在很多工厂已经实施了自动化改造，有的先进的工厂实施了MES，我们已经采集了大量的数据，但是其实这里边一直有一个备论，备论就是说我们如果采集的数据越多越好，那我模型用来生成训练模型这个基础也越来越扎实，但是如果没有模型没有分析的结果，没有数据价值的体现，实施安装大量的传感器，做大量的智能化改造，其实对企业是一个巨大的成本，而这个成本其实企业很难在投入的时候衡量出它到底带来多大的效果。

那所以这里边就是我们说的，我们经常遇到在实际的项目中，企业是采了很多数据，但这个数据也很难反映企业的一个全面的生产现状，比如说现场采集的生产检测数据，仅仅覆盖了很小的参数综合空间，并不是所有关键因素都有测量，而且测量值也不一定反映了参数系统的全部。在这个时候我们也有我们的办法，这个时候其实大家群里的朋友们，其实以后在实施工业大数据项目分析的时候，也可以参考我们这个经验，这个时候我们提出我们要利用行业专家的先进知识，缩小搜索空间、缩小搜索范围，所以行业专家我们其实谈到的就是业务专家、工艺专家，他们有很多他们的经验，包括一些有经验的操作工人，他们对一些的问题有他的一个凭经验的判断，但是这些判断是没有数据支撑的。但是他如果给了我们这些判断，其实对我们来讲就可以帮助我们来缩小搜索空间，寻取***代表的样本及进行模拟训练，发现其中的问题，那***也可能我们的分析结果验证了他们的经验判断，也可能推翻了他们的经验判断，但我想这些都是对企业一个很好的收获。

第三点就是谈到数据的这种价值分布，数据价值密度分布非常不均衡。就像刚才我谈的，其实我们采集上很多数，在工业系统里面有大量的常量数据、大量的稳态数据，所以我们要在这样大量数据数据中去找到它一些差异变化量，但是在工业数据中还有很多基础信息，比如说这些基础信息我们谈到的比如说图纸，生产指标，工艺要求，操作规程，这些基础信息可能保留在企业的一些惯性数据库里边，这些基础信息可能数据量本身不大，但它的数据价值非常高。那么我们在做大数据分析模型样本的时候，我们在建分析的宽表的时候，怎么把这些基础信息和这种价值密度低的信息做匹配，这也是一个挑战!

刚才大概讲了三点，就是我谈到工业大数据，大家老说很大，但在小和大之间其实是有一个矛盾统一的，那么正是因为这个工业大数据有这些特点，那我们想我们在往下做的时候，工业大数据对工业领域的支持，对企业的帮助，它应用渠道有哪些?

我想主要可能有三点，***个，三个渠道，***个渠道就是工业大数据能够帮助我们，把生产过程中的物理过程、和我们的业务运营的过程融合，其实有些MES系统，也能达到这样的效果。MES系统，但是MES系统更关注在企业的生产流程，更关注的是把企业的流程的这种规范统一，那我们在数据分析上就完全不受生产流程的限制，我可以拿来各种数据放在一起来比对分析，只要在模型建立的时候，但是我们建立模型时候其实要考虑将物理量，和经营过程量，比如这里边的说产品质量、生产效率、设备可靠性关系量化。

第二，就是其实我们谈到数据分析关注的应该是知识的自动化，而不是知识的发现。其实我们采集了大量的数据以后，我们要将业务领域的知识进行系统，通过大数据分析进行检索和更新优化，对于相对明确的专家知识，比如说我们说的熟练工人的经验，工艺专家的经验，借助大数据建模工具提供的这种时空模式描述，识别技术，进行这种形式化的建模。就是以后用这种模型，在数据中进行持续的扫描和报警，把工人和专家的经验模型化，实现这种知识领域的自动化。

第三，就是软测量。在工业应用中其实我们知道，很多测量不同过程量检测的技术可行性，精度，频度，成本差别都特别大。就像我们在做质量检测时候也发现，其实如果我所有的产品都做全检成本是很高的，实际当我们有了一些数据情况下，我们其实可以通过大数据分析，建立我们不好测量的这些物理量，和好测量物理量之间的一些关联关系模型，通过容易测的过程量去推断难测的过程量，提升生产过程的整体的可观可控。

以上我就跟大家简单的介绍了一下我们在通过这一段时间的工作，对工业大数据的概念、战略，它的数据特点一些理解，那下面我谈另外一个话题，就是工业大数据的商业价值实现的路径。大数据其实是制造业实现从要素驱动向创新驱动转型一个有利手段，其实我们国家最近一直在谈供给册改革，说明从宏观形式上我们要改变国家这种投资拉动，出口拉动的一个需求册驱动的经济模式，转向供给册结构调整驱动模式，我想大家在听经信委的领导，听协会的领导在跟大家介绍的时候都讲过很多，那我们其实也是跟也是有亲身的体会跟客户在做沟通的时候，我们对制造业而言，在宏观需求皮软的大环境下，如何通供给端的创新实现转型至关重要。其实，说句严重点的话，现在的创新转型，可能无法保证这个企业像以前一样活的有滋有味，但是可以保证企业在经济下行的环境中活下来。

为什么我们江苏一直在推动两化融合，推动智能工厂，智能车间的改造，都是这个目的。作为企业的CEO，CIO，我们更要清醒的认识，两化融合是手段，目的是要推动企业创新，保证企业活下来活的好。那么我认为通过利用工业大数据企业可以在四个层面进行创新，大家可以看看这张图，最下面一层其实是业务模式创新，具体来讲其实就是要很多企业要基于互联网的特点，开发出适用于互联网的产品，智能产品，打破传统营销市场中的一些时空限制，开发智能联网新产品，衍生新的智能服务。

其实我们可以看到比如说像格力，现在他们空调可以联网，比如像小米他的PM2.5的设备也可以联网，比如我们看像普惠发动机，像GE、像三一重工，他们的设备本身交到客户的时候，就具备了联网的功能。包括我们比如看到特斯拉，它是一个汽车呢，还是一个大的电脑呢?还是一个大的蓄电池呢?其实大家从各个角度都可以评价它，现在很多互联网技术的发展，让很多的产品本身有了很多新的定义，智能产品联网产品的研发，对企业来讲是最直接的，而且也是我认为是目前来讲创新需求***最广泛一个领域。

工业大数据的商业价值在这个层面我觉得可以体现在，营销一体化，精准营销，设备的在线健康检测，主动预警维护这些服务模型中。上面一层是生产模式的创新，这一层也是我们熟悉的智能工厂、智能车间所涉及的方面，通过数控机床、工业机器人的使用， MES、能管系统的建设，建立这种生产过程的工业数据、设备在线数据监测这样的一些改造。那在这个过程中其实大数据的应用我是觉得一定要和行业的先沿知识紧密结合，各个行业都会涌现出本行业的大数据应用创新的代表企业。

刚才跟大家介绍的钢铁企业的残留应力、质量投诉，残留应力引起变形质量投诉这种预警模型的，可以说是在这个层面的一个大数据体系应用，再往上一层是这种运营模式创新，这一层其实很多企业已经开展了很多信息化建设，它与企业的运营流程的创新是紧密相关的。在原有企业原有的ERP系统，CRM系统，物流系统，PRM系统的基础上，实现数据的全打通，提升企业整体运营效率，实现精益管理。

这一层以我的观点来看，其实有很多是以传统的BI的应用为主，因为客户是从运营的流程的优化，运营的角度来看，大数据的价值体现，我认为主要体现在两个方面，***个是以经营系统的问题为核心，引入刚才下一层的生产设备工化和运行作为补充的分析数据员，入这些分析，设备策展、设备工矿和运行数据的这种补充的这种分析数据员，突破以前的这种精益管理、精益生产的这种，只关注管理流程的局限。

第二，引入外部大数据。我们比如说就是企业采用中包中治的手段，进行产品研发，突破企业原来过于关注企业内部生产要素局限，那我想在这一层其实也有很多企业做出了，在工业大数据中做了很多新的一些尝试。最上一层是这种决策模式的创新，其实决策模式在德国工业4.0的十大挑战和机遇中，他特别强调整个公司转型，必须成为CEO工作每一部分，整合的数据使用与分析，是工业互联网一个核心能力。依靠数据进行决策应该成为企业的常态，依靠数据进行决策不应该仅仅停留在战略层面的决策，也包括每个具体工作、具体事物方面的决策，未来的高速运转的企业呢，将会为每一个关键决策，都会定义一个数据分析模型，依据模型结果为决策提供支撑，甚至是可以做出自动的决策。所以实现决策创新的关键，我认为是在决策层面，引入积极学习和人工智能技术，推动决策效果和效率的提升，实现三维价值。

我刚才大概介绍了一下我对这种商业价值实现路径的，工业大数据创业价值实现路径一个理解，接下来我想谈谈我今天演讲题目中另外一个话题，下一个话题叫：抓住人工智能的浪潮实现制造业转型，那这里指的主要的我认为是在工业决策创新领域人工智能技术的运用，谈到的这人工智能技术，可能并不涉及人工智能应用的其他领域，因为，人工智能是很广的，其他领域比如说大家熟悉的一些机器视觉、人脸识别、语音识别，这些仿生学技术的领域今天可能我不太涉及，如果大家看过凯文凯利的《失控》那本书，一定会记得其中有一个例子，这个例子给我的印象是非常深刻的，今天在这里跟大家也分享一下，书中写在2002年，那个时候凯文凯利参加了谷歌一个小型聚会，那是谷歌还没有IPO，还在一心一意的做网络搜索。凯文凯利和谷歌的创始人拉里.佩奇随意聊了起来，当时凯文凯利问佩奇说，前面有雅虎搜索，硅谷还有很多搜索公司，谷歌为什么你们还要做免费的搜索呀?

其实当时看到这一点的时候我的想法我相信跟很多人一样，其实这个问题我当时给出了答案，我自己想那这是谷歌的业务模式，它***免费搜索来聚集人气，然后通过什么DSP，这些广告拍卖的方式获取收益。AlphaGo是一个典型的人工智能应用，有人认为它的运作方式是靠记下人类历史上的全部的棋谱定势，其实这理解不对的AlphaGo它不是这样做的，它首先经过长期复杂训练，训练来自于人机对决和自我对决，有大量的数据对他进行训练。然后采用深度神经网络和蒙特卡洛树的搜索数算法，不断提高人工智能计算能力，而且在实战中，它更是把实际下每一步棋都作为输入条件，进入它的模型算法中继续进行迭代。

评估整体盘面的优略，并计算围棋盘上每一个位置落子概率，最终确定落子在哪个位置?***有上百台服务器在云端为AlphaGo提供计算资源，AlphaGo也仅能计算出未来的三步棋，其实把AlphaGo的训练和应用模式应用到工业领域中，是非常有实际意义的。我有时来个对比，我也不知道是不是恰当，但是我是这么理解的，就拿AlphaGo，原来我们以为人机对战就像我们很多现在手机上的下棋游戏的这个算法一样，其实它就是被棋蛊被定势，这种方式放在工业上，好比就理解是工业领域的机理模型的方式。也就是基于工艺的限制，通过试验各种可能性，根据实际生产的特定条件来求出自由解，这种方法其实跟刚才我说的被定势的方法一样的，但是目前我们给企业推荐工业大数据应用，是要用数据分析模型的方法，就是用工业生产中实际产生的生产运营中的大量数据，结合各种聚类分类算法，训练企业自有的人工智能系统。最近在智能制造领域，其实听的最多就是工业机器人，工业机器人确实可以帮助企业实现人类成本大幅降低，所以很多企业我看跟很多制造业企业聊天，他们特别认可在工业机器人领域的投资，因为可以替代人嘛，现在人工成本增长太快，那么他们在这个领域投资，远远超过企业对工业大数据平台和分析模型投资的愿望。

其实我认为这是一个误区，目前的工业机器人更多是在仿生学进行突破，目前的机器人还远没有人工智能，而且我认为不经过长时间的数据训练也不会实现人类智能。开句玩笑话，现在机器人的人工智能思维能力，也许还介于猩猩和人之间，这种工业机器人我认为仍然只能被认为是一种智能设备，像数字机床一样。在相当长的时间内人都是不可替代的，人机的高效交互协作，应该是未来智能工厂的典型场景，而且我觉得也应该不是未来了，应该很快的出现在各位的企业里边，工厂里边，只不过传统的工作场景都是由工人，有经验的操作工人，凭借经验、凭借工艺单，去操纵一个一个独立的设备，但是，一个智能工厂里边的具有人工智能一个智能工厂工作场景，应该是人和设备，成为智能工厂里面平等的二元，他两是平等的。人和设备都要接受后台的人工智能系统给出的决策和控制指令，进行高度协作。

所以，企业应该认识到，建设人工智能系统是整个企业进行决策创新的重要战略。具体实施上我们还是建议采用架构整体设计，大胆小步快走的方法，针对每一个问题实现局部，首先实现局部的人工智能，最终积少成多，构建强壮稳定的人工智能系统，使数字化企业有一个强大的大脑，这很像人类从小长大学习知识逐渐成长过程。局部的人工智能技术的开发，我们认为必须要经过数据采集、数据建模、机器学习、多次反复迭代，最终实现人工智能这样一个过程。

所以，我认为在人工智能在智能制造领域的实现，应该以工业大数据的理解和应用为主线。我相信可能群里边有些朋友，对我这个看法可能会不完全同意，有自己的看法，但是我这是我自己的理解，我认为应该以工业大数据的理解和应用为主线，我国制造业企业在这方面的人才储备，数据储备，模型储备，投资规模都还处于起步的阶段。首先我们企业的业务人员，工业专家不了解数据分析的方法算法，他们对数据的使用还停留在报表阶段、可试化阶段。

第二，缺少专业的数据分析人才。缺少专业的数据分析人才，而工业大数据如果不经过科学的数据挖掘计量实施方法处理，你是很难看到其中的价值。

第三，缺少与行业业务结合紧密的数据分析模型资源库。现在大家谈大数据谈的都是Hadoop,Spark这些IT技术，说模型算法说的都是各种回归，各种决策数据算法，其实企业不知道这些技术如何与企业的业务结合，解决实际问题。这是为了解决上述人工智能技术，在智能制造领域实际应用的难题，我们在这个领域进行了专注的产品研发，那我想也快9点了，我再花几分钟时间吧，简单介绍一下我们公司的，我们的公司产品和解决方案。

[[180021]]

我们公司的名字叫北京水木联合科技有限公司，英文是TangMIX，“Tang”我们起唐朝的唐，有中国特色，而且我们的产品也都是全都自主研发的，我们目前有几个核心产品，一个是我们专门为工业大数据优化的一个大数据分析平台，叫“数笈云”，我们给大家发一下我们界面，“数笈云”集成了我们专门为工业数据采集开发的一个数据适配器，它完成多种工业协议与“数笈云”直接的协议和接口转换。

数据到了“数笈云”之后，我们提供一系列的认证、加密、安全、分布式计算、数据预处理功能。这层其实我们有一个核心技术，我们这个核心技术就是对物理系统的一个抽象规范，无论你是哪个品牌、哪个型号的设备，在进入“数笈云”的时候，我们已经利用我们的抽象规范，或者IT的语言，叫语音命名规范，对物理系统进行了抽象，这样就可以方便进行一下步，数学模型的通用调用。这一步非常重要，因为工业领域和互联网的一个重要差别，我觉得就是封闭，工业领域的大厂家各有各的规矩，大家互不，互不相通，如果要相通可能就通过OPC连一连，但实现工业互联网的***步，就是要在数据准备阶段，打破物理系统的封闭。

[[180022]]

这一步在技术上我们是用标签库实现的，目前“数笈云”中的物理系统抽象规范，是我们自己和行业专家在定义。我们准备在将来把这部分开源出来。

第二个产品是人工智能引擎叫功夫云。这一部分抽象规范目前是我们自己在和行业专家在定义，我们准备将来把这部分开源出来，提供给大家不断补充，形成共同的标准，这样每个行业都有这种物理系统的定义，比如说，一个锅炉有哪些参数?我们该怎么定义它?一个典型的通用设备，一个变频风机，该用哪些参数去来定义一个风机?

可能大家的叫法，不同的控制系统，不同的设备型号，大家叫法不一样，但是在“数笈云”上，我们用标签的方式，我们有建立一个大家共同认可统一的一个抽象规范，这样我们的模型就可以直接去调用。这个产品的用户可以是企业的业务人员，工艺专家，也可以是专业的数据分析人员，功夫云这个产品它的设计研发是依据我们的大数据挖掘计量模型实施方法论进行设计研发的，这个方法论分为六步，我给大家看一看这个图，这六步从数据的准备和差异分析，模型规范要求，探索性数据分析，模型细分，确立最终模型，最终到模型验证生成，因为今天时间有限，我在这里就不展开了，大家有问题可以微信私信我，或者给我打电话，我给大家详细讲解。

我们现在正在不断提高这个方法论在功夫云中的自动迭代的效率，它背后采用的机器学习的算法，可以帮助客户迅速完成数据的准备，算法的选择，和模型的生成，很多的工作是自动形成，自动实现的，其实这也是跟很多的一些做数据分析咨询的一些企业差别，在那个我们把很多的重复性的，初级的数据准备的活动，比如像我刚才谈到常量的排筛查，数据的前空值的补充，数据的统计分布特征的选择，针对什么样的分布的特征数据采用什么样的算法?

我们都已经做自动化的实现了，但这里边也离不开业务专家我们在业务上一些理解，我们把很多的数据能够最快的速度形成宽表，然后数据科学家来做***的模型的调试，一旦模型生成在功夫云上你可以将模型用刀客技术封装成一个工业APP，这个APP干嘛用呢?它可以在线对模型所有的自变量的实时数据，进行实时监测和计算，输出预测结果。那么依托这两个核心产品，我们开发了预测性质量管理，安全风险预警，设备预测性维护，精准营销一体化四个解决方案。

这就是我们大概我们的产品的一个解决方案情况，下边我用***的用结束前一点时间，我给大家分享一下我们在建筑陶瓷行业一个案例。企业是佛山一个建筑陶瓷企业，是国内一个知名品牌，我们和他们一起拿了一条窑，做一个工业大数据分析应用的示范项目，这个项目的目标是进行瓷砖生产过程中变形品的副品率的预测，因为我看好像大家有提问，那我这样我先讲完，然后咱们一起来解答。

这个项目的目标是进行瓷砖生产过程中变形品副品率的预测，结合生产过程数据，建立瓷砖变形品副品率的一个预测模型，同时分析生产过程中设备数据对副品率的影响，客户目前的变形品副品率是在10%到30%之间波动，尤其而且在新产品生产的时候，副品率的波动会更大，但是企业通过传统的工艺调整，也几乎没有什么更好的办法去稳定他的副品率。那通过业务的考察，业务的理解和考察数据，我们定义数据模型输出的一个结果，就是我们说的目标变量，预测每天每个产品生产批次的变形副品率，这是目标变量，那自变量来自于什么?

来自于陶器压机，干燥炉、烧制炉工序的一些生产数据，那这里边包括了，这里边包括了压机工矿的参数，风机频率、电流、电表的功率因数，热电温度值，这样近千个采集点，采集频率是秒计。另外还有一些自变量是企业一些质量检验数据，工艺要求和订单数据，企业为这个项目前面做了一些前期数据采集的一些前期改造，后来等我们拿到数据采集到数据运营以后，我们发现其实这个项目我们发现有这样两个主要的挑战。

一是由于质量数据，按照生产批次进行每小时抽检，所以质量数据的数据量，远远小于设备数据，数据很不平衡。我想这个我刚才在介绍工业大数据的一个特点的时候，大于小的矛盾统一的时候，其实反反复复提到，那我想各位以后在做工业大数据分析项目的时候，这个一定要注意到这一点。

第二，就是设备中的记录的设备参数多达500多个，那么这些数据进行聚合后，它的变量更多。需要从海量设备参数中选取变形副品率相关的设备参数，我们在功夫云上实施了这个项目，最终我们是采用了拉锁算法，和逻辑回归算法，在近千个自变量中，找到了20几个左右的独立变量，建立了这些变量与变形副品率的预测模型，预测结果与实际值的均方跟差小于0.08。客户还是能接受的比较满意，同时我们通过跟客户业务人员沟通，在这20多个独立变量中，我们确定了11个变量作为关键变量。

那这个关键变量然后我们根据数据分布，按照期望的副品率界定了这些变量的一个正常范围，也就是说一旦这个模型在线使用的时候，一旦实时采界值超过这个范围，监测模型就会报警，就会提示变形副品率有突破目标值的风险。

这是我们给客户做的这个就是模型生成以后，然后模型工业APP，在线来使用的时候一个界面，大家可以看到下边仪表盘就是我们确定一个11关键变量，那么这11个关键变量，我们会为它设定了界定值，那么，这个界定值的依据，是由企业希望达到的变形品的副品率的控制要求来提出的。那客户也还是比较满意，这个项目得到了客户的认可，目前正在进行二期的实施，我想今天很荣幸有机会在咱们协会总群里，给大家介绍了，给大家汇报了我们对于工业大数据，很人工智能技术，在智能制造领域的应用体会，谢谢。

戳这里，看该作者更多好文