数据分析领域的两位思想领袖对冠状病毒、暗数据、数据科学家的角色进行了分析和探讨,并对数据分析为何仍然如此困难的原因进行了阐述。
在与两位顶级数据分析思想领袖的广泛对话中,行业媒体提出了当今数据分析中的一些关键问题。以下的主题包括:
- 在冠状病毒疫情持续蔓延的情况下,如何看待当前疫情影响数据分析部门或数据分析的工作实践?
- 商业智能专家和数据科学家在角色和关键优势方面有哪些不同?
- 为什么“暗数据”很重要?针对暗数据的有效策略应该是什么?
- 很多高管表示他们的企业在数据分析方面面临很多困难。为什么数据分析仍然如此困难?
为了提供对数据分析的深入了解,行业媒体与Hitachi vantara公司首席创新官Bill Schmarzo和Splunk公司首席技术倡导者Andi Mann为此进行了探讨。
如何看待当前持续蔓延的疫情正在影响数据分析行业和数据分析实践?
Mann说:“数据分析很有趣,现在必须从数据分析获得更多的洞察力。数据分析的方法之一就是尝试了解在疫情这个经济低迷期间能够更有效地将资源分配到何处。很多企业的员工在家远程工作,实际上并没有中断业务,这真的很重要。
零售、在线服务、数字服务、营销服务等行业受到了疫情的不同影响。他们可以采用更好的一种方法是使用数据分析,将其用于目标营销和与客户进行有针对性的接触。当然,对于非营利组织和政府机构来说,能够使用数据为处于经济低迷时期最需要的人员提供服务,例如失业人员或者无家可归的人员。
因此,可以使用数据分析来确定目标。例如Splunk公司正在提供数据集并向公共服务机构提供分析服务。我们正在与大学开展合作以尝试追踪传播,我们正在与企业和政府合作以尝试追踪冠状病毒疫情和其他事物的发展。因此,数据分析不仅可以帮助研究冠状病毒的毒性和传播机制,而且还可以帮助人们对抗冠状病毒。
因为Splunk是一种数据分析平台,我们不是自己创建数据,而是从其他来源获取数据,并将其提供给各个州和联邦政府机构,以便他们可以使用Splunk对数据集进行分析。它真的很强大。”
Schmarzo说:“实际上,数据分析不仅可以用于抗击冠状病毒的蔓延,而且可以分析疫情结束之后的发展情况,这实际上都是非常重要的。考虑到全球各国为了应对疫情而花费难以估量的费用,我们必须在某个时间点进行偿还。
因此,我认为我们必须使用数据分析来采用更少的资源做更多的事情。我们将不得不非常微观地关注营销活动和治疗活动。一切都将变得高度个性化。
例如医疗保健领域。很多政府部门现在就医疗保健和整体福利作出全面的政策决定。很多组织在这方面有太多浪费,因此需要从根本上获得更多收益,或者说‘少花钱多办事’的想法变得更加微观化,这对于分析行业来说将是一件好事,因为我们非常擅长利用非常详细的分析资料和数字趋势,来真正了解每个客户、老师、学生、设备之间的独特差异。
所以我认为,大多数组织都必须具备这样一种心态,即‘少花钱多办事’,因为这是组织在面临严峻的利润压力时能够改变其经济价值曲线的唯一途径,可以大幅增加税收,而世界上没有免费的午餐。”
您是否听说过在这个困难时期如何进行分析的事情?
Schmarzo说:“制药领域的企业肯定是全天候不间断运营。我上周和来自制药商葛兰素史克的机器学习工程师一起参加了一个小组讨论,他们表示正在致力于研发抗击冠状病毒的药物和疫苗。
我们作为数据行业人士,对关于疫情的数据缺乏更多的了解,这是一个悲剧。我们没有进行足够的测试,有时甚至对其结果没有信心。现在发生的一切是就是没有进行数据科学的典型例子。当一些人只通过收集的少量数据进行预测和推断时,这在某种程度上过度乐观或者有些过于消极,人们只是没有对这些问题应用良好的数据科学严谨性。即使是一个很小的数据集,人们也可以深思熟虑,但必须清楚说明这些数据集的约束条件和假设。
小数据集并不是随机样本,没有采用分析工作。有些人只是通过少量数字,然后推断到某些极端情况。在许多情况下,这样做只是因为他们自己的个人日程。”
Mann说:“我和很多客户进行了沟通,他们的数据科学家正在开展工作,但是在医疗保健领域,有很多人长期进行数字运算工作,只是想弄清楚如何应对和遏制病毒传播,也有许多人试图弄清楚该病毒的传播方式。
因此,我看到金融界人士为了了解业务而采用数据分析。因此,使用数据科学来衡量他们的业务指标,就像我之前说的那样,试图尝试并理解将资源放在哪里。
此外,我看到另一个数字处理的领域是保险业,需要进行保险索赔。保险行业将面临很多挑战,因此他们进行了大量的精算数字运算,正在将数据科学应用于他们的精算实践。在使用数据分析的效果方面存在很多缺陷,我认为有些人并没有意识到这一点。”
商业智能专家和数据科学家在角色和关键优势方面有哪些不同?
Schmarzo说:商业智能专家和数据科学家这二者都很重要。如果没有报告可以告诉正在发生的事情,那么不知道将资源和数据科学工作重点放在哪里,因此它们是非常互补的。这个信息图表可能使商业智能领域厂商付出的代价比其他事情都要多,因为人们误解为数据科学就是BI 3.0。
这二者非常不同,商业智能专家确实在努力清晰地传达组织用来衡量进度和成功的指标和关键绩效指标(KPI)。
然而,数据科学家正试图找出那些变量和指标,可能是更好的业绩预测指标。这是一条探索性很强的路线,将以失败为中心,需要不断尝试,不断失败,不断学习,人们无法在数据科学方面衡量多少时间的进展,如果了解错误肯定和错误否定的代价,那么实际上只能衡量自己在建立模型方面的效率,因此实际上这是两个不同的世界。而这二者并没有一个比另一个好的问题。
在数据科学领域,所有这些都集中于真正理解试图证明的假设,例如,需要衡量成功和进步的指标是什么,业务实体、利益相关者以及所有那些指标非常不同。”
Maguire说:“谈论这二者的区别很有趣,很显然,我认为企业在选择商业智能专家和数据科学家的简历时,很多人都可能会选择数据科学家,因为听起来很好。而且我认为,以失败为中心的数据科学专家也很有趣,这实际上可能是真正的学习。也许一些企业高管会说:“我们为什么为这个以失败为中心的专家支付这么高的薪酬?”
Schmarzo说:“如果没有足够的失败,那就意味着尝试并不足够,也就是努力并不够。失败是一种有效的学习方法。在商业智能方面,如果构建的架构无法正常工作,那么这样的失败将不会被接受。不断尝试不同的数据和数据元素的组合、转换和扩充,试图找出这些变量和组合中哪一个确实能提供更好的预测。”
Mann说:“商业智能和数据科学是两种完全不同的科学。它们在很大程度上都是一种科学。商业智能随着知识的积累而成长,这对于企业如何开展业务实际上非常重要。
这两种科学确实存在一些非常大的差异。数据科学是关于创新过程,例如数据科学谈论的是创新源于从失败中吸取的教训。我认为,如果没有失败,那么就不会学习,通过尝试可以获取更多的数据和理解,应该询问更多的问题,而不是寻找更多的答案。
因此,数据科学家似乎提出了很多问题,而用户又对数据提出了更多问题。用户得到的每个答案都只是提出更多问题的机会。因此,这是另一种思维方式。我认为,考虑将来自任何来源的数据带到任何问题,而不是试图找到答案,这是一种不同的思维方式。因此,数据科学家如何看待创新机会的思维方式确实存在根本性的差异。将数据视为永远没有最终答案,并且总是提出更多问题。而商业智能专家寻求答案,因为他们的业务需要开展,这是他们需要的重要内容。
因此,这种创新理念与经营业务无关。这是我看到的最大差异之一,它在诸如预先部署、精心计划与按需添加数据源等方面非常出色。
由于在商业智能中,知道要问的是什么问题,所以知道打算通过数据科学来规划该数据集。因此需要能够引入新的数据集,并在运行中不断丰富。其中遇到的一些问题确实将数据科学的概念锁定在了创新和问题上。我认为这是一种非常有趣的观察方式。”
Schmarzo说:“我再补充两点。第一,商业智能专家真正关心的是了解发生的情况以及发生的领域。数据分析科学家是试图了解它为什么会发生,当将它们组合在一起时,它会变得功能强大。
另一件事,我认为在商业智能专家将逐渐变得成熟。真正了解数据和分析可以在何处以及如何推动业务发展。他们具有更强的业务敏锐度,并且擅长进行价值工程,识别、验证和确定价值创造的来源。
然后将它们与数据科学相结合,这将成为一个强大的团队。有人曾问我,商业智能和数据科学有什么区别?我花了很长的时间来认真思考,研究这二者在工作中是如何思考和处理的,以及如何改变事情的思维方式。然后得出的结论是团队需要这两方面的人才。”
Mann说:“这让我想到的另一件事,就是让人工智能在很大程度上完成人类的工作。商业智能专家具有深厚的商业知识,这也许是数据科学家不具备的能力,因此需要了解他们的业务,利用他们的智慧来了解他们试图解决的问题。
而数据科学家通常会因为处理海量的数据集之类的东西,而经常会使用机器学习和人工智能技术。因为人类确实不善于观察,但机器确实擅长于此。因此,当接触到巨大的数据集时,使用机器学习几乎成为获得洞察力的必然选择,而商业智能专家不一定需要采用机器学习,只需要获得正确的数据集,并以正确的方式使用它们来获得所需的洞察力。”
Schmarzo说:“但是有趣的是,当我们考虑到冠状病毒疫情带来的影响,必须能够使用这些机器来帮助我们对客户、员工、产品、服务、运营的每一个方面进行非常细化的洞察。正是这种粒度级别可以使我们从中获得更多收益,我们只是追求采用更少的钱做更多的事情。
传统上,商业智能一直专注于聚合数据的分类,在聚合水平上看待事物以及做出一些决定。当我们试图用更少的钱做更多的事情时,我们需要那些机器来告诉哪些患者患有哪种疾病的风险,哪些人面临患病的最大风险。”
为什么“暗数据”很重要?针对暗数据的有效策略应该是什么?
Mann说:“这是我们真正感兴趣的东西。Splunk公司是一家分析和处理数据的公司,客户使用我们提供的数据分析平台处理他们的数据。因此,数据确实非常重要,并且我们有一个理论,即无论使用什么数据,使用的数据越多,就越能做得更好。因此,我们与一家独立分析机构Enterprise Strategy Group合作,要求他们验证我们有关此暗数据的一些想法。收集更多数据,使业务做得更好,这是我们的基本假设,这成为了事实。
ESG公司分析师考察了企业如何更好地经营。因此,他们着眼于收入、盈利能力和效率之类的指标,研究了使用和查找数据的含义。他们还围绕企业的IT预算和支出用于数据分析的问题,对发现暗数据的承诺,以及对其进行操作的效率提出了疑问。因此,当查看可以在组织中使用更多数据的团队与最后使用且对数据的忠诚度较低团队之间的差异时,确实有显著的不同结果。
当我们谈到这些人使用他们的暗数据时,所有这些隐藏在数据库、日志流或边缘设备、或各种涡轮机、生产线中的数据,就会发现,当收集更多的数据时,就可以更多获得,并且花费更少。而用更少的钱做更多的事,这很适合。
他们也能够领先于竞争对手,开发和推出产品的可能性是竞争对手的两倍。而且,在未来几年内,超过客户关注目标的可能性是竞争对手的两倍,从新产品和服务中获得20%以上收入的可能性是竞争对手的10倍。所以数据直接推动了创新。这很吸引人。”
这都是关于挖掘未使用的数据,但问题是如果数据已经被使用了,那么如何找到资源来挖掘那些额外的数据呢?
Mann说: “我们实际上是与我们的客户一起进行数据源评估。例如数据在哪里,有什么数据,用途是什么。而且,不一定非得寻求外部机构的帮助来处理。可以让组织内部的数据科学家解决诸如此类的问题,因为正如之前所讨论的那样,数据科学家的作用在于发现尚未获得的见解。因此,能够使其数据科学家找到暗数据,并开始围绕如何利用这些未知因素使组织的业务更好地制定策略,这是另一种看待世界的方式。”
Schmarzo说:“在有关暗数据的话题上,有一些非常有趣的事情。如何确定数据是否有价值?怎么知道应该尝试返回并找到这些数据源并将其引入?我们发现,如果让用例驱动它,这些用例将帮助人们区分哪些数据具有价值。它最终将帮助区分数据中的噪声和信号。因此,许多方法都非常以用例为中心。
选择一个用例,了解要执行的操作,然后集思广益,可能想查看哪些数据源。这包括挖掘一些原有的数据。当然,当今最可能使用暗数据的例子是冠状病毒疫情所发生的情况,以及韩国如何立即使用SARS和猪流感数据。他们收集了大量数据,做出了一些正确的预测,那是10年前的数据,那是无用的数据。谁会再需要这些数据?但这非常有价值,可以帮助他们真正做出精细的决策。
因此,组织拥有大量数据,这些数据埋在组织的不同部分。我们找到解决问题的最佳方法是,考虑要使用的用例,然后将所有不同利益相关者召集在一起,开始考虑拥有哪些数据,可以处理哪些数据并开始这一过程。很多时候,我们发现业务利益相关者和业务分析师了解什么数据可能有用。数据科学家实际上会告诉企业哪些数据有用。”
即使在当今时代,为什么数据分析仍然如此困难?
Mann说:“所以我认为有很多原因。我认为这全都源于这样一个概念,即人类在数字方面通常没有那么优秀。这并不是说有些人的数学不是很好,但是数字是一种构造,大多数人都是通过视觉进行观察。而人类还可以使用听觉和嗅觉来了解更多的信息。
此外,人们不是很擅长处理自相矛盾的想法。因此,当数据告诉人们一些不知道的东西时这是一回事,但是当数据告诉一些令人不相信的东西时,这很困难。因此,很多人会丢弃一些数据,因为它们无法证实先前的观点。当人们谈论冠状病毒疫情时,有趣的是发现需要收集更多数据,进行更多测试,而使用更多数据的想法将改变这些模型的结果。
因此,我认为人们不会自然地偏向于数据和分析。他们自然倾向于故事和想法。因此,正如我之前所说,要成为一名数据科学家需要一种独特的心态。但是,它还具有独特的能力,可以妥协并接受数据科学家的新想法,以使企业高管能够推动这些计划。不幸的是,这些是人类一些不常见的特征。”
Schmarzo说:“人类确实在数字和图案处理方案方面很糟糕,如果需要任何证据证明的话,那么可以去拉斯维加斯赌场尝试一下进行赌博。有人说,赌博对于数学不好的人来说是一种收税手段。
另外,很多人正在从数据分析中寻找魔力。问题当然是“魔力”这一术语。数据分析没有任何魔力,而是一项艰苦的工作。我们在数据科学领域所做的一切并没有什么神奇之处,只是大量艰苦的工作。这实际上是一种流程和思维定势。我们将探索许多不同的想法,将尝试一些不同的事情,将会不断面临失败,并且不断迭代,并继续在这个过程中不断学习。这就是我们要做的很多事情就是让企业高管如何像数据科学家一样思考的原因。
我们有一套完整的方法来吸引高管人员。如何让商务人士像一个已经开始采用数据和分析功能的数据科学家那样思考?在许多情况下,这要求他们不了解自己做过的事情,放弃他们原有的工作方式,现在准备接受新的学习过程。”
Mann说:“我认为这是因为人们在数字方面很差劲,可以这么说,如今擅长使用Excel的人都是数据科学家。但是我认为采用的工具集也存在部分缺陷。因为数据科学家是非常聪明的人,所以他们不介意使用复杂而困难的工具集。我认为作为IT领导者,需要创建更简单的工具集。我们正在做的一件事是让人们将开源算法插入机器学习工具包中。
因此,人们不必成为数据科学家即可采用数据科学。我认为,作为IT和数据领域的领导者,我们可以做很多事情,以使数据科学更易于获得。”