本文转载自公众号“读芯术”(ID:AI_Discovery)。
数据化是大势所趋,各种规模的公司都开始利用数据来进行决策。但根据高盛2019年的一份报告,企业实际上很难通过数据来建立可持续的竞争优势。
我们团队曾与各行各业的公司合作并为其提供服务,见识过数据策略优点和缺陷。我曾见到有团队成功建立了数据生命周期、仪表板、机器学习模型和指标,但最后不得不解开、删除、迁移和升级整个数据系统。
在这些项目中,我们看到了几个反复出现的问题:数据治理不足;不良数据;复杂的Excel文档;数据团队与业务之间缺乏协调;以及过多的仪表板,导致决策混乱。随着发展,这些数据问题都会逐渐复杂化,并逐渐削弱团队或公司对数据的信任和使用能力。
在本文中,我们将讨论其中的一些问题以及可以实施的解决方案,以改进整体数据生命周期。
1. 数据和事实来源不一致
对于各种业务不同的工作流程,我们不可避免地要在多个地方输入相同的数据。一个团队可能对一个业务流程使用Salesforce,而另一个团队可能使用Workday。这会导致在每个步骤输入不一致的数据。其原因可能是时机错误或者人为错误。一旦这些不一致数据进入公司的各个数据库,就会对报告造成严重的破坏。
只要问问那些向主管提交报告的BI工程师或分析师,他们就会发现几份报告间的数据略有不同。无论公司规模如何、数据成熟度如何,他们都将遭受这一困扰。我们的团队曾在多家公司工作过,也为各个行业提供咨询,他们都面临着这个问题。
解决方案1:制定数据治理策略
这通常可以通过数据治理策略来解决。数据治理涉及管理数据的有效性、可用性、完整性和安全性。
如何部署该数据治理策略取决于你是希望拥有一个紧密的、集中的数据流程,还是想要一个分散的、独立的流程,流程偶有重合,以避免核心数据模型重叠。
数据治理不是一个性感的名词。它不是数据科学或机器学习,但它是数据科学和机器学习部门的基础。如果不能把握核心事实的来源,会导致许多相互矛盾的策略。
解决方案2:组建中央数据团队以快速做出决策
另一种策略——培养一个核心数据团队——对于想要快速发展的大公司来说不太推荐。该策略仅关注开发和管理数据集。当公司规模较小时,数据团队本身也会很小,这个策略就能发挥作用。
当需要对事实来源和数据完整性做出决定时,这种策略能让我们很快得出结果。没有必要管理多个团队或每个月召开一次集中会议。
2. 用Excel管理复杂的商务决策
图源:unsplash
Excel和电子表格持续推动着全球公司总值数十亿美元的决策。即使是最聪明的公司,对Excel的依赖也会导致数百万甚至数十亿美元的错误。
例如,2008年,巴克莱银行同意收购雷曼兄弟,但Excel的错误导致他们在并不打算购买的合同上吃了亏。
雷曼资产的详细电子表格包含大约1000行,需要转换为PDF格式。但在最初的Excel版本中,隐藏了179条巴克莱不想要的条目。他们备注的不购买的条目没有被转移到PDF文件中,但隐藏的行被转移到了PDF文件中。结果,他们不得不购买179份自己不想要的合同。
无独有偶,2012年,由于Excel错误,摩根大通损失了近60亿美元。
Excel文档是一种非常通用的数据工具,可以帮助团队管理很多工作流程。但是,由于复杂的设计、人为错误以及Excel的常规操作方式,这些文档也很容易出错。
解决方案1:像工程师对待代码一样对待Excel
如果你使用Excel来做重大决策,则应像工程师对待代码一样对待它。也就是说,应该有Excel检查和测试用例。这看起来可能有点矫枉过正,但Excel非常像代码。事实上,有些人甚至认为它是第四代编码语言。这意味着它很容易因逻辑、过程和输入而产生错误。反过来,它也应该被这样对待。
不要只相信分析师,不管他们有多聪明,能做出多完美的Excel表。优秀的程序员可能会制造bug,聪明的分析师也是如此。
因此,应该进行逻辑审查、测试用例和健全检查,以减少这类错误。这一切看起来似乎没有必要,除非你的公司因为不良信息而损失了大笔资金。
解决方案2:使用Python和SQL实现Excel自动化
为业务流程自动化开发干净的数据工作流,这些业务流程定义明确且可以转换为SQL和代码。许多报告都需要从报告或数据库表中复制和粘贴数据。除了复制和粘贴外,你还可以使用一些其它方法来开发可自动提供数据输出的解决方案。
可以使用SQL、代码和Excel相结合的方式来进行有限的操作。尽管代码依然容易出错,但它通常可以通过限制错误和输入数量的方式来编写。Excel并非如此,Excel的灵活性是它易于出错的原因。最佳解决方案取决于流程的复杂性、重复性以及根据数据解决方案做出的决策量。
3. 商业智能仪表盘过多,目的性不足
商业智能仪表盘是非常强大的工具,可以帮助提取信息并提供见解和指导。然而,由于其易开发性和普及的便捷性,导致公司经常被仪表盘淹没。这些仪表盘并不总是与公司的优先事项保持一致,它们本身可能不够简洁,无法做出决策,有时只是一些浮于表面的指标。
仪表盘易于制造,但这并不意味着团队应该快速推出它们。每个仪表盘都应该具有实用意义。仪表板应该驱动某种动作并发出通知。
解决方案1:问自己到底为什么要建立仪表板
为了避免开发过多的仪表盘,团队应该制定一个流程,弄清楚为什么要建立仪表盘。我们经常发现仪表只是在经理或主管的要求下建成,并没有经过深思熟虑。这些仪表板最终会被扔进仪表盘“墓地”。它们仅被使用一次,或者可能几个月。然后突然被遗忘。在这种情况下,Excel报告可能会更好。
4. 试图分析大量数据而没有足够的行动
我们注意到的一种较常见的模式是,大多数公司在达到一定规模和复杂度后,数据会多到不知如何处理。
这可能导致几个问题。一些公司尝试在大型数据仓库项目中一次性从每个数据源中提取所有数据。这成本昂贵,耗费时间并且结果可能令人沮丧。公司最终会花费数十万至数百万美元来开发数据仓库,却发现这将花费两年时间,并且耗费的资金是他们预算的两倍。
解决方案1:进行小规模、快速的数据战役
不要试图一次获取所有数据,而是找出公司想了解更多信息的几个关键领域。团队应该制定一个计划,以解决这些问题。它是仪表板,报告还是类似的东西?然后,这将推动许多数据仓库的第一个版本。
公司应该花费大量的时间来规划数据仓库的设计、主要实体、数据治理等等。但是,如果花了太多的时间来规划,却只是建立框架,那么最终企业所有者会感到焦躁不安。因此,在前进的道路上取得一些小的成功可以保持人们的积极性。
图源:unsplash
5. 使用低质量和不完整的数据
胡乱输入,胡乱输出。如果你在数据行业工作过一段时间,就会习惯听到这句话。更啰嗦的说法是:根据错误的数据做出正确的决定,实际上还是错误的决定。将不良数据放入仪表板,报告和模型中只会提供无效的结果。
我们已经看到,公司花费数月甚至数年的时间使用数据,大家都认为这些数据是正确的且无人质疑。但只要稍加挖掘,他们就会发现数据不完整、不准确、不可信。每个公司都有不良数据。唯一的问题是:他们是否会使用这些数据来做出价值数百万美元的决策?
解决方案1:创建自动质量检查系统
数据通常由人输入,因此很容易出错。团队需要开发某种形式的自动数据质量检查系统来管理这些错误。
在大多数系统中,数据量过大而无法手动检查,这种情况下,有一个解决方案。用户所做的大部分数据质量检查都可以记下来,并放入自动质量检查系统中。这样可以为整个公司节省数百至数千小时,并提高准确性。
这些检查可以是直接的数据检查,即要确保输入的所有国家都是真实的,也可以更多的动态检查,例如进行测试以确保每个月的总支出保持在特定范围内。总体而言,进行这些初始的列级检查和汇总检查会非常有帮助。
解决方案2:始终使用集成测试
建立仪表盘时,尤其是具有计算字段、混合数据集和过滤器的仪表盘时,团队应创建集成测试,以确保仪表盘工具内的逻辑不会更改初始数据。
个人认为应该将尽可能地将逻辑限制在一个地方,例如查询本身。由于通常不会发生这种情况,因此团队应确保他们在仪表盘上看到的数据与他们输入的数据匹配。
有许多简单的集成测试可供使用。例如,也许你知道数据集应包含1000个人。那么,建立一个基本的集成仪表盘,统计数据集中有多少人。这一点在使用Tableau中的混合功能时尤为重要。如果不仔细考虑最终数据,可能会导致很多问题。为避免这些问题,最好考虑一些基本的集成测试。
图源:unsplash
利用数据做出更好的决策可以为企业提供竞争优势。但是,数据质量和数据流程的稳健性确实会影响数据策略的成功与否。
仅创建仪表盘、数据仓库和机器学习模型并不足以做出以数据为依据的决策。团队需要考虑其数据生命周期以及用于管理每个步骤的流程。这意味着创建测试用例、明确的目标和流程,以帮助改善团队的绩效和策略。
没有人愿意被繁琐的流程和官僚主义所困扰,但如果没有团队数据生命周期的计划或策略,就会让陷入失败,请提前避免这个问题。