【51CTO.com原创稿件】 AI发展至今历经数次起伏,关于AI 应用的落地也一直伴随争议。但不可否认的是,在企业数字化转型过程中,AI能力必不可少。为了让 AI 在企业智能化进程中发挥价值,必须具备集应用、数据、算力为一体的能力模型。三者相辅相成,互为联接,任一环节的缺失都会影响到最终结果。没有应用,海量数据会沦为死数据,算力也无法产生价值。但事实上,AI落地的速度远落后于数据的增速和算力的投入。而第四范式的目标就是要解决AI应用门槛高对三者联接的阻塞。
AI落地“三大屏障”:应用、数据、算力
自动机器学习(AutoML)技术可以把特征提取、模型选择、参数调节等机器学习的复杂过程实现自动化。这种技术无疑有利于降低机器学习应用于现实问题的难度,因此近年来一直是人工智能业界最为热门的领域之一。第四范式自成立以来就致力于研发能快速构建AI应用的自动机器学习技术,如今又努力将这种自动化能力拓展到AI应用的大多数环节。
数据是整个AI系统运转的“原料”,没有数据,AI应用就是无本之木。但是数据治理的过程又极其艰难,要占据数据科学家绝大多数的时间和精力。但如果有了数据形式,就可以更快地将原始数据变成AI ready的数据,一键开启建模和应用。为此,第四范式开创了“数据形式”方法论,每一个数据形式,定义了相应业务场景里所需的数据标准,包括需要什么样的数据、从哪里去取,应该如何处理。
除了应用的快速构建,数据的轻松使用,算力价值的发挥也至关重要。越来越多AI异构芯片的出现,加速了AI异构计算芯片对操作系统内核进行管理的细分需求。为此,第四范式研究人员打造了AI异构资源调度与管理平台AIOS Kernel,实现了动态调度和虚拟化算力资源功能,有助于最大限度发挥算力价值。
“三大联邦”赋能企业AI转型
在年度发布会上,第四范式的企业级AI操作系统Sage AIOS 升级到了2.0版。同时,第四范式以企业级智能应用市场4Paradigm Sage App Store为平台基础,扩展为应用联邦、数据联邦、算力联邦三大网络,全面加速企业的智能化转型。
基于应用联邦,企业可以基于数据和算力共享的应用快速组装个性化的智能方案,加快智能化的速度;
基于数据联邦,企业可以安全保护数据隐私的情况下更好地利用数据,提升业务价值;
基于算力联邦,企业可以屏蔽掉异构分布式算力的复杂性,更好地应对AI算力异构化的趋势。
目前,第四范式与多家国内外服务器厂商进行了深度适配和优化,希望通过软件定义算力,尽可能降低分布式异构算力趋势所带来的复杂性。未来,第四范式希望借助4Paradigm Sage AIOS 2.0及4Paradigm Sage App Store,聚集开放生态和合作伙伴的力量,帮助更多行业快速开启智能化转型与质变之旅。
开源两大底层技术栈:给开发者最需要的东西
值得关注的是,第四范式还计划在一年内将 95% 核心技术开源出来。发布会上,第四范式就面向开发者社区开源了AIOS的两个核心底层技术栈——OpenMLDB机器学习数据库和OpenAIOS人工智能操作系统内核。
OpenMLDB:为AI而生的机器学习数据库
机器学习技术的深入往往伴随着机器学习模型的高频次进化,这也意味着正确数据供给的重要性不断提高。ML需要实现理性和瞬时高效的推理判断,但无论是事务型数据库、分析型数据库还是传统数仓,在执行这类任务时都无法保障正确的数据供给。实际应用开发与落地过程中,仍然会大量出现数据穿越、泄露、离线在线不一致、拼接错位等数据问题。
与Hadoop、Oracle、MySQL 这些传统数据库相区别,OpenMLDB是专为AI而生的机器学习数据库,解决了3个核心数据问题:线上线下一致性、数据闭环、数据时序正确。
一方面通过统一的数据存储引擎避免了跨数据库的信息交换,避免了大脑之间的信息交换;另一方面通过统一的数据计算引擎,使离线和在线使用同一套计算逻辑,确保了总结规律和线索演算时思维方式的一致;
在时序正确性上,OpenMLDB 通过使用自动时序拼接语法和时序泄露检测模块,避免了错误的数据使用;
在闭环完整性上,OpenMLDB也进行了针对性的矫正,通过对线索与反馈的自动拼接检测与自动关联,保障了唯一拼接标识,避免了数据拼接错位的问题。
OpenAIOS:完全面向AI的分布式操作系统内核
除了数据上的困局,AI在计算、存储、通信等方面也是“资源大户”,低效的硬件资源利用率也是转型的一大掣肘。不同的异构芯片、异构存储、异构通信设备,都需要操作系统内核进行统一的管理与调度,保障任务的成功率与资源利用率。第四范式OpenAIOS是一个完全面向AI的分布式操作系统内核,实现了多级计算内核、多级存储内核以及多级通信内核,来应对异构算力的管理和调度。
在算力方面,OpenAIOS 的多级计算内核有针对性的设计硬件之间的协同处理策略,将计算任务进行工作量拆分,通过统一的智能化调度,将拆分后的任务给到不同的专用计算芯片进行处理。
在存储方面,面向存储密集型技术组件,因为内存和显存不够导致的任务失败是开发者最常遇到的难题。在不侵入现有应用和代码的情况下,OpenAIOS 在操作系统内部建立了一套面向内存和显存的多级存储内核,通过自动扩容策略和多级缓存机制将存储容量进行扩展,降低整体存储成本的同时提高了任务的成功率。
在通信速率方面,数据的交换效率是人们关注的重点,OpenAIOS 提供了多级通信内核,在机器学习特有的梯度权重交换等环节,提供了低延迟、高吞吐的通信框架,以及面向异构加速器的专用通信协议,减轻数据通信上的压力。
下一步:如何将AI带来的量变推到质变
在两大底层技术栈开源的基础上,第四范式开放了开箱即用的“AIOS社区版”,整合了OpenMLDB和OpenAIOS,社区和开发者可在免费的线上算力和应用开发环境进行体验和学习。并支持多种本地 IDE,让大家保持PC上开发单机应用体验的同时,无缝的将分布式任务对接到异构云资源上。在应用的开放性上,除了内置的核心应用,AIOS 社区版也提供了应用商店,能够支持所有的云原生第三方应用。
对于AI发展的预期,第四范式创始人兼CEO戴文渊提到,科技改变产业最重要的是能否找到临界点。当跨过这个临界点后,想象空间将变得无限大。在他看来,下一阶段的最大挑战是如何进一步将AI带来的量变推到质变,使得企业真正实现AI转型。率先转型成功的企业,都是利用AI决策赋能关键业务场景,最终突破业务临界点实现质变。当AI在关键场景验证成功后,就能逐步拓展到所有业务领域,最后实现企业经营的质变。
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】