亚马逊云科技陈晓建:面向未来云原生数据基础设施的四大要素

原创
云计算
一个面向未来的云原生数据基础设施应该有四个核心要素:面对不同类型的工作负载,提供合适的工具;在大规模运行的情况下仍然保持高性能;通过智能化手段和工具为客户降低运营复杂性,有效提升工作效率;提供最高级别的可靠性和安全性,来保护数据存储。

总计5万多客户和合作伙伴参加线下活动,超过30万人参与线上会议,亚马逊云科技第11届re:Invent峰会落下帷幕。每年的re:Invent全球大会都会发布许多重磅的新服务、功能和应用,来支持遍及全球各地、来自千行百业的客户进行不断的创新和重塑。亚马逊云科技始终致力于通过技术的不断创新,让全球包括中国的客户能凌云驭势、重塑未来。

近日,亚马逊云科技正式开启2022 re:Invent中国巡展活动,展示2022 re:Invent全球大会的最新产品和技术、前沿趋势以及最佳实践。

数据爆炸不是未来,而是现实。分析人士预测,未来五年产生的数据量将会是数字时代开始以来的两倍多。如何管理海量数据,挖掘数据价值,对每个组织来说都是巨大的挑战。亚马逊云科技通过提供端到端的全面数据解决方案,帮助客户打造从数据的摄入,数据存储与查询,到数据分析,商业智能,再到人工智能与机器学习创新,并通过安全合规的方式进行集团内或公司之间的共享和输出。

亚马逊云科技大中华区产品部总经理陈晓建提到,构建端到端数据战略的三个核心为:建立面向未来的云原生数据基础设施;实现高效、跨组织的数据一体化融合;借助教育和工具,使数据普惠化。

其中,一个面向未来的云原生数据基础设施应该有四个核心要素:面对不同类型的工作负载,提供合适的工具;在大规模运行的情况下仍然保持高性能;通过智能化手段和工具为客户降低运营复杂性,有效提升工作效率;提供最高级别的可靠性和安全性,来保护数据存储。

亚马逊云科技大中华区产品部总经理陈晓建

用合适的数据库工具应对所有类型的工作负载

在工具方面,亚马逊云科技拥有最完整的数据库,包括关系数据库(如 Amazon Aurora)和 8 个专用数据库(如Amazon DynamoDB)为应用程序提供数据工作负载支持。同时,亚马逊云科技为分析工作负载提供最全面的服务,例如使用 Amazon Redshift 的 SQL 分析、使用 Amazon EMR 的大数据分析、使用 Amazon QuickSight 的商业智能以及使用 Amazon OpenSearch 的交互式日志分析。此外,亚马逊云科技还提供一系列广泛的功能来支持机器学习工作负载,包括 PyTorch 和 TensorFlow 等深度学习框架、可以更轻松地创建 ML 模型的 Amazon SageMaker 等服务,以及具有内置机器学习功能的 AI 服务,例如Amazon Transcribe 和Amazon Polly。

在本次大会上,亚马逊云科技宣布推出了适用于 Apache Spark 的 Amazon Athena,让用户使用Athena来调用Spark,在短短一秒内即可开始 在Apache Spark运行交互式数据分析任务,用户无需准备基础架构配置。同时,客户还只需为使用的资源付费。

亚马逊云科技还宣布了针对 Apache Spark 的新 Amazon Redshift 集成预览,通过这一功能,客户可以通过Amazon EMR 或者Amazon Glue这样的Spark引擎来消费Amazon Redshift中的数据。与现有的 Amazon Redshift-Spark连接器相比,这种集成使Spark引擎对Amazon Redshift的数据抽取速度提高了10倍。

除了发布新特性,亚马逊云科技也在持续优化性能。客户在 Amazon EMR、Amazon Glue、Amazon SageMaker、Amazon Redshift 和Amazon Athena 上运行经过优化的Spark runtime,可以获得比开源版本 Spark 快 3 倍的性能。

在大规模的情况下保持高性能

Amazon Aurora的自动扩展功能可以将每个数据库实例可自动扩展到最大128TB,而只有其他传统企业级数据库大概1/10的 使用成本;DynamoDB在2022年的Amazon Prime Day期间每秒处理超过一亿次的请求;上万个Amazon Redshift用户每天都会处理超过EB级别的数据总量,它也具备超过其他的云数仓约5倍的更好的性价比,同时,在高并发和低延时的场景下,比如报表和dashboard的应用,Amazon Redshift的性价比是其他方案的7倍。

在这些强大能力的基础上,本次re:Invent再次发布了多项数据库新特性,包括:Amazon DocumentDB Elastic Clusters,将Amazon DocumentDB集群弹性扩展到支撑百万级读写每秒和PB级存储容量的规模;Amazon RDS写优化,将数据写入吞吐量最高提升两倍;Amazon RDS读优化,将数据查询性能最高提升50%。

消除繁重的工作

亚马逊云科技通过自动化和机器学习的内置智能来减少手动任务。Amazon SageMaker支持新的地理空间机器学习功能Geospatial ML,客户只需单击几下即可从Amazon SageMaker访问不同的数据源上的地理 空间数据。内置可视化工具使您能够使用 3D加速图形在交互式地图上分析数据和探索模型预测。本次大会还发布了Amazon OpenSearch Serveless,补上了分析服务Serverless化的最后一块拼图。

可靠性和安全性

本次大会新发布了Amazon RDS蓝/绿部署。为客户开辟一个测试环境进行补丁或者新配置的测试,当测试成功之后快速将测试环境切换为生产环境。这样的功能极大地节省了数据库团队运维中的操作压力,同时提升运维效率,保证数据零损失。

新发布的Amazon Redshift Multi-AZ多可用区功能,实现了Amazon Redshift的跨可用区容灾。这样的功能与Amazon Redshift本来具备的自动备份和恢复功 能相结合,为客户的关键分析负载加上了双保险。

连接数据的能力与云原生数据基础设施一样重要。亚马逊云科技提出“零ETL”的未来:无需再次手动构建数据管道。亚马逊云科技在本次大会上发布了多项全新的集成功能,帮助客户实现“Zero-ETL”(零ETL)。例如,Amazon Aurora 将首次支持与 Amazon Redshift 的 Zero-ETL(提取、转换和加载)集成,将事务数据与分析功能结合在一起,消除了在 Aurora 和 Redshift 之间构建和管理自定义数据管道的所有工作。用户不必构建和维护复杂的数据管道来执行提取、转换和加载(ETL)操作。又如:亚马逊云科技打造出 Amazon DataZone,用于分类、发现、共享和管理数据的数据管理服务,可以集成 Redshift、Athena 和 QuickSight,以及对第三方数据源提供 API 接口,可实现细粒度数据管理,其中包含由机器学习填充的数据目录,易于使用业务术语进行搜索。

责任编辑:徐杰承 来源: 51CTO
相关推荐

2014-03-07 14:35:49

网络基础设施Open Fabric

2013-06-24 10:26:44

惠普世界之旅大数据存储

2015-08-21 13:41:18

数据中心软件定义

2023-05-29 10:21:07

云计算数据中心

2012-05-28 10:38:25

imo即时通讯

2023-05-25 14:43:14

云计算数据中心边缘计算

2022-12-01 11:21:28

布线基础设施数据中心

2016-04-19 12:34:40

戴尔英特尔腾讯云

2022-06-28 09:10:32

K8S容器镜像滚动升级

2010-08-26 22:27:58

2021-07-05 09:18:08

UPS电源

2023-10-11 14:57:47

亚马逊云科技安全数据

2023-02-18 13:47:04

CoreOS容器操作系统云原生

2023-07-04 14:57:17

云计算公共云数据中心

2023-05-16 13:46:00

数据中心

2023-02-08 11:01:37

网络以太网

2016-11-04 14:38:51

云计算云市场

2023-06-27 23:02:55

亚马逊云科技云计算

2017-12-27 14:41:57

融合云计算服务器

2023-12-08 18:40:36

字节跳动云原生火山引擎
点赞
收藏

51CTO技术栈公众号