大数据项目可能出错的五种方式-大数据项目难点

大数据项目的低成功率是过去10年中一个持续存在的问题，与之类似的是：人工智能项目中也出现了相同类型的问题。虽然100%的成功率不是一个可以实现的目标，但用户可以进行一些调整以从数据投资中获得更多收益。

随着世界产生更多数据，它也越来越依赖数据，不接受数据驱动决策的公司可能会进一步落后。幸运的是，数据收集、存储、管理和分析的复杂性在过去10年中大幅提高，研究表明，拥有最先进数据能力的公司比同行产生更高的收入。

同样，某些数据故障模式会一遍又一遍地重复。以下是影响大数据项目的五个常见陷阱，以及一些使您的大数据项目保持正常运行的潜在解决方案。

将其全部放入数据湖中

谷歌云数据库、数据分析副总裁兼总经理GerritKazmaier引用的一项研究显示，超过三分之二的公司表示，他们没有从数据投资中获得“持久价值”。

“这非常有趣，”Kazmaier在上个月的新闻发布会上说。“每个人都认识到他们将与数据竞争……而另一方面，我们认识到只有少数公司在数据方面真正取得了成功。所以问题是：到底是什么阻碍了这些公司进行数据转型？”

一个重要原因是缺乏数据集中化，这抑制了公司从数据中获取价值的能力。大多数任何规模的公司的数据都分布在大量孤岛——数据库、文件系统、应用程序和其他位置。公司通过将尽可能多的数据放入数据湖中来应对这种数据困境，例如Hadoop或（最近）在云中运行的对象系统。除了提供数据驻留的中心位置之外，它还降低了与存储PB级数据相关的成本。

然而，Kazmaier说，虽然它解决了一个问题，但数据湖本身也引入了一系列全新的问题，特别是在确保数据的一致性、纯度和可管理性方面。“所有这些组织都试图在数据湖之上进行创新，但最终发现它只是一个数据沼泽，”他说。

GoogleCloud针对这一困境的最新解决方案是Lakehouse架构，这个架构将数据湖方法的开放性与数据仓库的可管理性、治理和质量相结合。

公司可以将他们的数据保存在GoogleCloud存储中，这是一个与S3兼容的对象存储系统，支持Parquet和Iceberg等开放数据格式，以及Presto、Trino和BigQuery等查询引擎，但不会牺牲数据仓库的治理。

没有集中查看数据

在过去的几十年里，许多公司一直在努力将数据集中在数据湖中，但是与此同时，数据孤岛还是一样存在，而目标则变成了消除用户访问数据的障碍。

在CapitalOne，大数据的目标是使用户访问民主化，作为数据生态系统整体现代化的一部分。“这实际上更多的是让我们所有的用户都可以使用数据，无论他们是分析师，他们是工程师，还是机器学习数据科学家等，以释放他们可以用数据做的潜力，”CapitalOne企业数据平台和风险管理技术高级副总裁BibaHelou表示。

CapitalOne数据民主化工作的一个关键要素是一个集中的数据目录，它提供了各种数据资产的视图，同时跟踪访问权限和治理。

“它确保我们是以一种管理良好的方式来做这件事的，但要确保人们有能力看到外面的东西，并获得他们需要的东西，以便能够创新性地为我们的客户提供产品，”Helou在最近的一次采访中强调。

该公司决定建立自己的数据目录。原因之一是目录还允许用户创建数据管道。“所以它是一个目录，另外。它与我们所有的其他系统紧密相连，”她说。“相比获得大量第三方产品并自己将它们串起来，我们发现为自己构建集成解决方案要容易得多。”

变得太大、太快

在Hadoop时代的鼎盛期，许多公司斥巨资来构建大型集群来为其数据湖提供动力。由于使用了标准X86处理器和硬盘，这些本地系统中的许多都比它们所取代的数据仓库大大降低了成本（至少在每TB的基础上是这样）。然而这些大型系统带来了额外的复杂性，从而推高了成本。

现在我们已经处于云时代，我们可以回顾这些投资，看看我们在哪些方面出了问题。去年加入Snowflake担任首席数据策略师的前Forrester分析师Jennifer Belissent表示，由于基于云的数据仓库和数据湖产品的可用性，客户可以从小额投资开始并从那里升级。

“我认为这是我们面临的挑战之一，我们需要预先进行大量投资，”Belissent说。“如果你正在部署云基础设施，那么可以从填充数据湖或数据仓库的单个项目开始，以交付结果为起点，然后逐步添加更多用例、添加更多数据、添加更多结果。”

Belissent说，与其在一个冒险的大数据项目中一蹴而就，客户最好从一个成功可能性更高的较小项目开始，然后随着时间的推移在此基础上再接再厉。

“从历史上看，整个行业在谈论大数据并期望人们接受大数据时，根据定义[这意味着这是一个大型基础设施]这让人们倒退了，”她说。“而如果你想从小处着手，逐步构建，并利用云基础设施，这更容易使用，而且你不必有前期资本支出来将其部署到位，那么你就能够展示结果，你也许正在消除我们在前几代人中看到的一些幻灭感。”

Belissent指出，Gartner最近开始强调“小而宽数据”的优势。在谈到人工智能项目时，AndrewNg一直在演讲中提出这一点。

“这不仅关乎大数据，还关乎调整数据规模，”Belissent在上周接受采访时表示。“它不必很大。我们可以从小处着手并扩大规模，或者我们可以使数据源多样化并扩大范围，这使我们能够丰富我们拥有的有关客户的数据，并更好地了解他们的需求和想要的东西，并更加了解相关情况我们为他们服务的方式。”

即使大数据项目不是很大，用户仍然应该考虑未来扩展的可能性。

没有为大增长提前计划

大数据中反复出现的主题之一是用户将如何接受新解决方案的不可预测性。你有多少次读到一些大数据项目被认为是肯定的赌注，结果却是巨大的失败？同时，许多对成功期望不大的副项目最终成为了巨大的赢家。

从大数据开始，并在成功的基础上再接再厉，通常是明智的。但是，在选择您的大数据架构时，您要小心，不要因为选择会成为缩减生产线的障碍的技术而束缚自己。

NoSQL数据库公司Aerospike的首席战略官LenleyHensarling表示：“无论是服务和基础设施业务、人工智能还是其他业务——如果成功，它的扩张速度将非常快。”“它会变得很大。您将使用大数据集。就正在进行的操作数量而言，您将拥有超高的吞吐量。”

Aerospike的人称其为“理想规模”，这是一种在互联网公司中普遍存在的现象。由于云消除了对硬件投资的需求，公司可以将计算能力提高到n级。

但是，除非您的数据库或文件系统也可以扩展和处理吞吐量，否则您将无法利用公共云上的性能。虽然现代NoSQL数据库很容易适应不断变化的业务，但它们可以提供的功能有限。数据库迁移绝非易事。

大数据中有很多已知的故障模式——毫无疑问也有一些未知的。熟悉常见的很重要。但也许最重要的是，很高兴知道失败不仅是意料之中的，而且应该作为过程的一部分受到欢迎。

不适应失败

在使用大数据洞察力修改业务战略时，可能会突然出现未知因素，从而导致实验失败，甚至意外成功。在这个令人担忧的过程中保持理智是长期成功与短期大数据失败之间的关键区别。

数据目录公司Alation的首席执行官兼联合创始人SatyenSangani表示，科学本质上是一种推测性的东西，你应该接受这一点。“我们假设，有时假设是正确的，有时它们是错误的，”他说。“有时我们会进行实验，有时我们可以预测它，有时我们不能。”

Sangani鼓励公司拥有“探索性思维”，并像风险投资家一样思考。一方面，您可以通过在聘请新的销售人员或扩大总部等方面进行保守的投资来获得低但可靠的回报。或者，您可以采取更具投机性的方法，这种方法不太可能获得回报，但可以以惊人的方式获得回报。

Sangani说：“人们很难接受这种探索性的心态。”“如果你要投资于数据资产和人工智能投资组合，你可能不会为每一项单独的投资获得100%的投资回报，但其中一项投资可能是10倍的投资。”

归根结底，公司在赌他们将从数据投资中获得10倍回报之一。当然，获得数据黄金的机会需要做很多正确的小事。有很多事情可能会出错，但是通过反复试验，您可以了解哪些有效，哪些无效。并且希望当您实现10倍的回报时，您将与我们其他人分享这些经验。