在2023年Gartner发布的十大战略技术趋势中,应用可观测性以及AI信任、风险和安全管理都位列其中。“相信数据可以使今天的不可能,在明天成为可能”的Cloudera肯睿,似乎在这两个风口都有着得天独厚的优势。
近日,Cloudera大中华区技术总监刘隶放向51CTO等媒体分享了Cloudera全新的现成大型语言模型(LLM)蓝图以及监控和优化CDP部署的新服务Cloudera Observability。
CML:信任 AI始于信任数据
“这对Cloudera是一个非常好的机会。”
谈及AI时代,刘隶放表示, Cloudera平台上管理的数据已经超过2500万TB,这与超大规模服务商的数据量不相上下。此前,Cloudera大中华区副总裁王刚表示:“生成式 AI和大型语言模型的效果取决于它们所接受的训练数据,并且它们需要正确的语境。这些模型和AI要取得成功,就需要得到信任,而信任 AI始于信任数据。”
今年以来,不少合作伙伴和客户都来向Cloudera寻求帮助,希望在系统中嵌入对话机器人以及机器学习和深度学习等技术。
ChatGPT虽然很火,大家也都在做,但是为什么企业要跟合作伙伴谈,而不是直接用公有云上的模型?刘隶放解释道,企业需要在合适的情境中基于自身专有数据构建交互体验,并且不与外部服务共享他们的数据。在Cloudera平台上,对所有客户而言最重要最珍贵的数据始终都在客户手中,这也是Cloudera能深度参与客户AI建设的重要原因之一。
对于企业而言,数据的关联度和准确性也很重要,对话机器人的错误将会为工作和生产带来很大的影响。“ChatGPT有一个策略,当它知识库中没有训练答案时,就会捏造一个答案,这种现象被称为AI幻觉。”刘隶放表示,今天的AI还没有像我们在电影中看到的那么神奇,要让AI给出更准确的答案,需要确保数据的质量。
近两年来,Cloudera一直强调在数据编织基础上帮助客户实现数据治理和管控的能力。但未来Cloudera将会转型成为AI的平台。
刘隶放介绍道,Cloudera的AI平台CML(CDP Machine Learning)主要有三个重要部分:一是CDP基础数据,即客户训练数据的基础数据,这将为客户未来的分析系统提供数据支撑;二是数据加工、提取与转换,Cloudera加工数据的流程原本用在大数据流程中,AI也同样需要对数据进行加工处理;三是嵌入大语言模型,并在模型的基础上,构建和部署AI应用。
“在真实大数据的模型上,按照合规的方式产生可信结果,我想这是Cloudera AI平台所提供的能力。”
Observability:优化混合云成本
在越来越多企业选择混合云和多云的今天,全面了解和管理不同部门和成本中心的基础设施和服务支出变得愈发困难。
刘隶放介绍说,管理混合云部署的挑战主要在三个方面:一是平台可控性和稳定性,由容器、调度器、服务等组成的复杂系统给运维人员的知识面提出了很高的要求;二是资源管理和控制,对资源消耗情况和效率的可见性有限,导致浪费和超支;三是支持力度和体验,提供支持的人员需要频繁来回奔波,排除故障的过程也很麻烦。
Cloudera Observability让这些难题迎刃而解。今年6月,Cloudera Observability宣布面向所有在公有云或私有云环境中使用Cloudera Data Platform(CDP)的客户开放,依托Cloudera在混合数据解决方案领域的经验,使客户能够监控、了解和优化其CDP部署。客户还可以通过可自定义的自动操作和预先构建的操作,发出警报、主动避免问题并优化工作负载。
相比Cloudera此前的另一专注于工作负载调优的产Workload Management,Cloudera Observability在混合云环境中能力更加全面。刘隶放介绍说,Observability实现了财务治理、主动系统监控、服务健康监控、工作负载优化、自助式分析等功能,以及更快的问题解决速度。
Cloudera Observability能够提高CDP全部功能的成本效益,从而增强企业用户体验。对于正在提高自身数据管理水平,以便为各种混合云和多云环境中的大型语言模型和其他AI项目提供基础数据的企业来说,这一点正变得日益重要。
此外,提及Cloudera Observability的优势,刘隶放还展示了Cloudera针对已有适用客户的平台进行的数据分析。在部署Observability后,集群利用率提升30%以上,提高了基础设施的投资回报率;SLA和SLO遵守率提高43%,直接增加了收入;RCA和故障排除速度加快50倍,减少了运营开支。
目前,Cloudera Observability只推出了公有云上的SaaS版本,还需要联网支撑部署。但刘隶放透露,考虑到部分行业监管严格且对数据敏感,Cloudera很快还会推出一个本地部署版。