文学作品往往是未来科技的序曲,讲述人类与月亮人交往的《梦游》,超前为17世纪的人们展示了零重力状态、宇宙服。上世纪90年代出版的《雪崩》则以宏大的叙事笔触,描绘了一个与现实世界平行的虚拟世界,设定现实人类通过VR设备与虚拟人共同生活。
正是这部充满赛博朋克风格的科幻小说,提出了超越于现实宇宙的——元宇宙(Metaverse)概念。今年3月,元宇宙第一概念股Roblox上市,紧接着,7月扎克伯格宣布未来5年要把Facebook转型成为一家元宇宙公司。一时间,国内外科技巨头纷纷布局元宇宙。
风从虎、云从龙,主打沉浸感、低延迟、实时交互的元宇宙要想由概念转为现实,离不开VR、5G、AI、云计算等技术的支持。与此同时,如何对AR/VR、可穿戴设备、传感器等产生的庞大实时流数据进行存储、处理,也是元宇宙真正落地面临的挑战。
近年来,实时应用场景逐渐增多,企业和组织需要及时处理节假日出行订单、外卖订单、路况事故信息等实时数据,这就要求强大的流分析和存储能力。
因此,戴尔科技集团从零开始构建了一套实时流式数据分析与存储解决方案——戴尔易安信流数据处理平台(Streaming Data Platform,SDP),旨在为编写可靠的流式应用程序提供基础。
该平台在K8s上构建,采用微服务架构,通过统一的K8s Operator方式部署Pravega与Flink,集合了存储和计算平台,并且实现安全、多租户等诸多特性,为企业用户提供了一体化的数据存储和分析平台。
SDP最基础的组件是它的流式数据存储引擎,即Pravega。作为平台内的自研开源组件,Pravega承担着为所有其它组件提供流式数据存取服务的重任,用以简化实时数据处理和存储需求。
Pravega采用了分层存储架构。事件可以存储在低延迟/高IOPS的存储(第一层存储)和更高吞吐量的存储(第二层存储)中。通过这种方式,冷热数据分离有效降低了数据存储成本。上层使用Apache ZooKeeper作为分布式协调器,并提供统一的Stream抽象。
Pravega专注于流式数据存储的可靠性和实时性,同时提供批流一体的Stream API。它解决了大数据处理系统面临的“计算是原生的流计算,而存储却不是原生的流存储”难题。经过Pravega抽象后的流式数据具有持久性、伸缩性、只追加等一系列特性。
目前,Pravega在游乐园设施的预防性维护、工业物联网中的异常检测、建筑业中施工的准确性和资源跟踪等方面,均发挥了作用。
基于应用场景丰富,Pravega受到了IT开发者的认可和欢迎。因此,由戴尔中国研发中心主办的首届Pravega创客大赛,于今夏发出“英雄帖”时,获得了社会各界的广泛关注。相关报道的浏览量累计突破71.9万次,互动量更是达到了1.7万余次。
本次大赛吸引到23个团队同场竞技,探索开源编程领域的更多可能性。从网约车危险驾驶行为实时监控与预警、工业物联网操作系统,到流计算在计算机视觉领域的应用,这些沪上“长宁区大神”、“数据高手”使用数据流和Pravega创建代码,向外界展示创新带来的价值。
经过严格的初选之后,共有十支参赛团队脱颖而出,跻身决赛。这些佼佼者进一步向评委们阐释了各自的项目,充分展现出团队对于创新和开源平台的坚持和信念。
最终,来自戴尔中国研发中心E-LAB和OCTO团队、云原生计算基金会(CNCF)Pravega社区团队、Apache Flink 社区团队、T-Footprint团队以及初创公司MatrixOrigin团队,凭借各自的优秀项目赢得了评委们的青睐!
本届优秀技术演讲奖由李三平、陈悠获得,下面为大家揭晓各支团队摘得的奖项及精彩议题。
一等奖
芯片软件CI/CD大数据
分析与状态监测
—— Terry YU、David YUAN、Charles GUO,来自T-Footprint(NXP/AMD的设计公司)
来自T-Footprint的团队在芯片研发过程中洞察到在日常CI/CD的过程中涉及到大量的测试设备,海量的测试结果数据在后续的定位中往往需要投入大量的人工资源去进行诸如错误分类、测试状态统计等工作,最终导致效率低且成本高。
通过基于Pravega对数据的实时采集和以及存储,利用Apache Flink为计算引擎以及可视化组件构建出一套完整的解决方案,目前的该项目已经被落地到生成测试环境。
二等奖
Flink 武魂殿
—— 蒋晓峰、苏轩楠、任庆盛,来自Apache Flink社区
该项目基于当前火热的以Snowflake和Databricks主导Lakehouse架构进行了思考,结合目前主流Lakehouse技术栈之一的Apache Hudi,通过从开放性、工作负载包容性等方面进行的分析,将CNCF Pravega作为整个架构中的数据持久化层,落地应用到Lakehouse的场景中。
二等奖
网约车危险驾驶行为
实时监控与预警
——罗玉皓、王芳、陈燕飞、何毅,来自戴尔E-LAB团队
驾驶员者最危险的一面是驾驶员本身的干扰造成的不规范驾驶行为。借助视频采集设备和传感器, 实时采集司机驾驶行为AI视频智能检测,识别驾驶员不规范驾驶行为,督促司机提升安全意识并优化驾驶行为,为乘客提供全方位的安全保障。
Pravega利用低延时、高并发和高吞吐要求,以及对实时数据和历史数据的统一处理能力能够完成对多路视频的实时分析和历史视频的回溯。在此次车联网方案中的应用,展示了其性能的优异性,能帮助降低开发,运维和存储成本,缩短开发周期。
三等奖
Hutosys工业物联网操作系统
—— 黄策、 张翔,来自CNCF Pravega社区
三等奖
Streaming OLAP
—— 魏子然、李慧静、秦姝琦、张潇,来自MatrixOrigin公司
三等奖
基于Pravega的数据蒸馏方案
—— 李三平、陈强、倪嘉呈、王子嘉,来自戴尔OCTO团队
三等奖
基于Pravega的风控解决方案
—— 陈悠、张康、汤庆凯,来自CNCF Pravega社区
三等奖
流计算在计算机视觉领域的应用
—— 耿飙、周云峰、蔺广琛,来自Apache Flink社区
再次恭喜本届大赛的获胜团队!在后续的推文中,我们将详细解读此次大赛中的优胜项目,请大家拭目以待。愿Pravega这只“青鸟”未来帮助更多开发者,探索分布式流式系统背后的秘密!