译者 | 布加迪
审校 | 重楼
大家都想利用生成式AI和大语言模型的力量,但这里有一个难题。让AI满足很高的期望需要高质量的实用数据,这正是许多组织的不足之处。
麦肯锡最近一份由Joe Caserta和Kayvaun Rowshankish共同撰写的报告指出,许多组织要求用生成式AI做点什么。然而,这种压力伴随着其他问题:如果贵企业的数据还没有为生成式AI做好准备,贵企业也就没有为生成式AI做好准备。
报告作者建议,IT和数据管理员需要对生成式AI的数据含义有一个清晰的认识。数据可能通过应用编程接口或企业自己的模型借助原先存在的服务来使用,这不仅需要更大笔的投入,还需要复杂的数据标记和标注策略。
Caserta及其团队认为,也许最具挑战性的是生成式AI处理非结构化数据的能力,比如聊天、视频和代码。数据型组织历来只能处理结构化数据,比如表中的数据。
这种数据方面的转变意味着组织需要重新考虑支持生成式AI项目的整体数据架构。虽然这听起来像是旧新闻,但以前企业可以逃避的系统漏洞将成为生成式AI的大问题。如果没有强大的数据基础,生成式AI的许多优点根本不可能实现。
在整个行业,越来越多的领导者对企业处理可以应对生成式AI等新兴挑战所需的大量流入数据的能力表示了担忧。Faction Inc.的技术和运营副总裁Jeff Heller表示:“在不断创新和技术进步的推动下,数字化转型意味着组织的运作方式要有所转变。”
此外,AI并不是促使企业需要更有效、响应更迅即的数据架构的唯一因素。Interzoid创始人兼首席执行官Bob Brauer表示:“客户将继续期待量身定制的服务和沟通,这当然在很大程度上依赖准确的数据。”
传达出来的讯息很明确——企业是制定战略并采用先进技术的时候了,以确保数据仍然是宝贵的资产,而不是沉重的负担。
专家们建议,为了让数据为快速崛起的AI时代做好准备,需要考虑以下几个因素:
1. 制定数据治理策略:有了合适的优先事项、员工、治理、工具和管理层要求,企业可以将数据质量挑战由负担变为重大的竞争优势。为了让AI及其他计划背后的数据获得组织支持,一个步骤可能是创建一个工作组,以研究如何运用生成式AI的新兴创新、大语言模型及基于AI的其他新技术以获得竞争优势。
2. 制定数据存储策略:找到一个存放所有数据的地方,并使数据能够易于发现和访问,这是一项必要的工作。昆腾首席开发官Brian Pawlowski表示,最近的行业调查发现,一半以上(60%)的存储数据处于非活跃状态,这意味着这些数据很少或从未被访问过。即便如此,企业也不想丢弃这些数据,因为它们明白,这些数据可能会在未来几年提供宝贵的解决方案和商业价值,尤其是在生成式AI广泛应用的情况下。这个难题需要重新评估现有能力,以建立现代化、自动化的存储架构,以便人们能够在整个生命周期内轻松访问和处理活跃数据和非活跃数据。
3. 确保拥有数据质量策略:准备好数据架构以处理AI带来的新需求,需要从确保很高的数据质量成为战略优先事项入手。一个好的开端是任命首席数据官或类似职位,专门为数据质量项目提供预算和资源。
4. 确保评估进度:领导力优先事项应该包括面向整个企业的数据评估,并制定衡量成功的指标和目标。
5. 确保拥有处理非结构化数据的能力:与传统的机器学习模型相比,生成式AI模型方面的数据质量问题变得更明显,因为有太多的数据,而且其中大部分是非结构化数据,因而很难使用现有的跟踪工具。将来,非结构化数据约占所生成的数据总量的90%,未来五年全球存储容量的年复合增长率将达到25%。这些非结构化数据存储在文件和对象中:高分辨率视频和图像、复杂的医疗数据、基因组测序、机器学习模型的输入、捕获的有关自然界的科学数据(如绘制油气田地图)以及现实模拟,包括特效、动画和增强现实。组织部署解决方案,以自动化方式管理数据的生命周期,并利用AI等尖端技术帮助提取更高的商业价值,这一点至关重要。
6. 将支持广泛用例的功能融入到数据架构中:将相关的功能(比如矢量数据库和数据预处理及后处理管道)融入到现有的数据架构中,特别是支持非结构化数据方面的功能。
7. 利用AI帮助构建AI:使用生成式AI帮助您管理自己的数据。生成式AI可以加快现有任务,并改善整条数据价值链上从数据工程到数据治理和数据分析的各种任务处理方式。
原文标题:7 ways to make sure your data is ready for generative AI,作者:Joe McKendrick