译者 | 布加迪
审校 | 孙淑娟
数据革命如火如荼。未来五年内创建的数字数据总量将是迄今生成的数据总量的两倍,非结构化数据将定义这个倡导数字体验的新时代。
非结构化数据指不遵循传统模型或不适合结构化数据库格式的信息,占所有企业新数据的80%以上。为了准备迎接这个转变,许多公司在寻找创新的方法,管理、分析和尽量利用业务分析和人工智能等各种工具中的所有数据。但决策者也遇到了一个老问题:如何维护和改善庞大笨拙的数据集的质量?
机器学习是解决之道。现在,机器学习技术方面的进步使组织能够有效处理非结构化数据,并改进质量保证工作。随着数据革命方兴未艾,贵公司在哪里遇到了难题?是面临一大堆宝贵但难以管理的数据集,还是使用数据推动业务向前发展?
非结构化数据需要的不仅仅是复制粘贴
准确、及时、一致的数据对于现代企业的价值无可争议,它与云计算和数字应用程序一样重要。尽管如此,糟糕的数据质量仍然使公司/企业每年平均损失1300万美元。
为了解决数据问题,您要运用统计方法来测量数据形状,这使数据团队能够跟踪变化、剔除异常数据,并消除数据漂移。基于统计方法的控制对于在做出关键决策之前判断数据质量,确定应该如何以及何时使用数据集仍很有价值。虽然这种统计方法有效,但通常保留用于结构化数据集,这类数据集适合客观定量的测量。
但是那些不完全适合Microsoft Excel或Google Sheets的数据该如何是好?包括:
- 物联网:传感器数据、股票数据和日志数据
- 多媒体:照片、音频和视频
- 富媒体:地理空间数据、卫星图像、天气数据和监视数据
- 文档:文字处理文档、电子表格、演示文稿、电子邮件和通讯数据
当这些类型的非结构化数据发挥作用时,不完整或不准确的信息很容易进入到模型。如果错误无人注意,数据问题就会越积越多,对季度报告和预测预估等各项工作造成严重破坏。从结构化数据到非结构化数据的简单复制粘贴方法不够,实际上可能会使业务变得更糟。
常说的“垃圾进垃圾出”非常适用于非结构化数据集。也许是时候抛弃当前的数据方法了。
机器学习用于保证数据质量时要注意的事项
考虑非结构化数据的解决方案时,机器学习应该是首选。这是由于机器学习可以分析海量数据集,并在杂乱数据中快速找到模式。如果借助正确的训练,机器学习模型可以学习解释、组织和分类任何形式的非结构化数据类型。
比如说,机器学习模型可以学习为数据分析、清理和规模推荐规则,从而使医疗保健和保险等行业的工作更高效更精确。同样,机器学习程序可以按非结构化数据源(比如社交媒体上或电子邮件记录中的数据源)中的主题或情绪,识别和分类文本数据。
当您通过机器学习改进数据质量工作时,记住几个关键的注意事项:
- 实现自动化:数据解耦和校正等手动数据操作乏味又耗时。鉴于当今的自动化功能,它们也是日益过时的操作,自动化功能可以处理乏味的日常操作,使数据团队能够专注于更重要、更高效的工作。将自动化纳入到数据管道中,只需确保已落实了标准化的操作程序和治理模型,以鼓励围绕任何自动化活动进行简化、可预测的流程。
- 不要忽视人的监督:数据的复杂性总是需要一定程度的专业知识和只有人类才能提供的上下文,无论是结构化数据还是非结构化数据。虽然机器学习及其他数字解决方案会帮助数据团队,但不要光依赖技术。相反,让团队能够利用技术,同时对单个数据流程定期监管。这种兼顾可以纠正任何现有技术措施无法处理的数据错误。之后,可以根据这些差异来重新训练模型。
- 检测根本原因:出现异常或其他数据错误时,这常常不是单一事件。如果收集和分析数据时忽略更深层次的问题,贵企业会面临整个数据管道出现普遍性的质量问题这一风险。即使是最好的机器学习计划也无法解决上游产生的错误,选择性的人工干预再次可以夯实整体数据流程,并防止重大错误。
- 质量方面不要做假设:要长期分析数据质量,应想方设法来定性测量非结构化数据,而不是对数据形状做出假设。您可以创建和测试“假设分析”场景,以开发自己的独特的测量方法、预期输出和参数。使用您的数据运行实验提供了一种确定的方法来计算数据质量和性能,您可以自动测量数据质量本身。这个步骤确保始终进行质量控制,并且作为数据摄取管道的基本功能,而不是事后添加上去的。
非结构化数据是带来新机遇和新见解的宝库。然而,目前只有18%的组织利用其非结构化数据,而数据质量正是阻碍更多企业的主要因素之一。
随着非结构化数据变得越来越流行,并与日常业务决策和运营更紧密相关,基于机器学习的质量控制提供了亟需的保证:您的数据是相关、准确、有用的。如果您没有在数据质量方面卡壳,就可以致力于使用数据推动贵公司向前发展。
想想当您有效控制数据或者更好的是让机器学习为您处理工作时带来的种种机会。
原文标题:Solve the problem of unstructured data with machine learning,作者:Edgar Honing