2025年大数据重回焦点，决定AI成败-51CTO.COM

又到了每年人们发布对未来一年预期的前十或前二十大榜单的时候了。与往常一样，我没有随波逐流再列一个榜单，而是将我对未来一年的预测限定在一个引人注目的趋势上。

未来一年，大数据将重回人们的视野。数据正在变得比“新石油”更重要，它正在成为新的货币。大约十年前，随着分析成为商业成功的关键路径，大数据开始受到广泛关注，但后来由于大数据无处不在，这一术语也变得不再重要。

在过去两年中，在GenAI引发的所有兴奋中，数据——或对数据质量和可信度的关注——似乎都被GenAI所带来的华丽图示和极具洞察力的见解所掩盖。现在，随着GenAI对商业至关重要，人们意识到他们的AI基础是建立在一堆松散的沙子上的。

当AI出现“幻觉”时，并不是因为它的“心思”在游走，因为它根本没有心思可言，它只是根据概率运行，抓取下一个可用的相关数据来完成叙述。

现在，甚至有人担心我们开始缺乏足够的数据来喂养这些机器。“世界上大多数公开可用的数据——无论是合法获得的还是非法获得的——都已经被耗尽了。”Constellation Research的高级分析师Andy Thurai表示，这种疯狂何时才能结束，对吧?

因此，没错，2025年数据将再次成为焦点，因为我们需要大量的数据，而且这些数据必须非常好、非常及时。

“在2010年代，所谓的大数据时代，数据风靡一时，”dbInsight的负责人Tony Baer表示，“随着云计算规模使大数据成为常态，我们开始理所当然地获取和管理大量数据，然后去年GenAI横空出世，风险基金开始疯狂追逐AI。”

Qlik的一份报告指出，大数据和AI“具有协同效应”。“大数据分析利用AI进行更好的数据分析。反过来，AI需要大规模的数据来学习和改进决策过程。”

大数据将决定AI的成败。“虽然AI一直依赖于用于训练和测试的数据，但越来越明显的是，数据才是AI获胜的关键因素。”Thurai表示。

Presidio对1000名IT高管的调查显示，至少有86%的高管报告了与数据相关的AI障碍，如难以获得有意义的见解和实时数据访问问题，其中一半人认为他们在完全准备好之前就匆匆投入了GenAI。

风险投资界仍然对AI充满热情，“但你猜怎么着?这需要高质量、经过验证的数据，而且不能侵犯隐私或数据主权。”Baer表示。

因此，人们越来越强调检索增强生成(RAG)解决方案，这是标准数据库和大型语言模型之间的桥梁，Baer说。

Baer提到了AI Alliance(一个由领先科技公司组成的联盟)的最新公告，该公告强调了建立可信数据基础的重要性。

AI Alliance在宣布其开放可信数据倡议的一份声明中表示：“数据是AI模型和系统最重要的组成部分，然而如今AI所用的数据往往来源不明、授权不清，并且在语言、模态和专家领域的质量和多样性方面存在巨大差距。”

该倡议的目标是发布“大规模开放、许可宽松的数据集，这些数据集在所有对AI至关重要的领域和模态中都具有清晰的来源和血统”。该倡议汇集了来自Pleias、BrightQuery、Common Crawl、ServiceNow、Hugging Face、IBM、Allen Institute for AI、Cornell、Aitomatic、Tokyo Electron和EPF等20多个组织的150多名参与者。

该倡议的成员“正致力于开发更好的要求、流程和工具来管理数据集，使其更加透明、可信、准确，并得到广泛应用”。

除了完善开放可信数据的规范外，联盟成员还计划构建可信数据处理的工具和发布管道，包括端到端的血统跟踪功能。联盟还打算“显著扩展数据目录，旨在包含世界上大多数语言的数据、高质量多模态数据的大型存储库(包括图像、音频和视频)，以及时间序列和科学模态”。

随着全球数据变得越来越宝贵，Thurai预见领先的大型语言模型之间的差异将越来越小。因此，企业将转向更狭窄或更专注的模型，这些模型利用特定行业的数据。例如，针对金融行业的BloombergGPT、Google专为医疗保健行业开发的Med-PaLM2，以及基于大量法律案件、法规和监管来源训练的Paxton AI法律语言模型。

Thurai表示，BloombergGPT“是一个拥有500亿个参数的LLM(大型语言模型)，专门在广泛的金融数据上进行训练。因此，在金融自然语言处理任务方面，它比其他AI模型表现更好，甚至超过了同样规模的开放模型。”

Thurai介绍称，Med-PaLM2“在大量医疗数据集上进行训练，包括教科书、研究论文、患者记录等，这种密集训练帮助该模型获得了深厚的医学知识，使其能够理解医疗保健领域使用的复杂语言和概念。”

Thurai表示，Paxton AI法律语言模型“提供了对美国所有50个州和联邦司法管辖区的数百万个法律来源(包括法律、法院裁决和法规)的实时访问”。

随着来自各种来源的大数据不断增加，合成数据的使用也将增加，但Thurai建议谨慎采用。“利用合成数据来训练AI模型现在已经成为一个更大的家庭手工业，”他表示，“虽然其中很多都用于填补数据盲点，但有时这可能适得其反。通过使用AI来生成数据，可能会产生仅基于预期场景训练的模型，这些模型在现实世界中遇到意外问题时可能会束手无策。”