亚马逊云科技陈晓建：面向未来云原生数据基础设施的四大要素

作者：徐杰承 2022-12-27 11:27:54

一个面向未来的云原生数据基础设施应该有四个核心要素：面对不同类型的工作负载，提供合适的工具；在大规模运行的情况下仍然保持高性能；通过智能化手段和工具为客户降低运营复杂性，有效提升工作效率；提供最高级别的可靠性和安全性，来保护数据存储。

总计5万多客户和合作伙伴参加线下活动，超过30万人参与线上会议，亚马逊云科技第11届re:Invent峰会落下帷幕。每年的re:Invent全球大会都会发布许多重磅的新服务、功能和应用，来支持遍及全球各地、来自千行百业的客户进行不断的创新和重塑。亚马逊云科技始终致力于通过技术的不断创新，让全球包括中国的客户能凌云驭势、重塑未来。

近日，亚马逊云科技正式开启2022 re:Invent中国巡展活动，展示2022 re:Invent全球大会的最新产品和技术、前沿趋势以及最佳实践。

数据爆炸不是未来，而是现实。分析人士预测，未来五年产生的数据量将会是数字时代开始以来的两倍多。如何管理海量数据，挖掘数据价值，对每个组织来说都是巨大的挑战。亚马逊云科技通过提供端到端的全面数据解决方案，帮助客户打造从数据的摄入，数据存储与查询，到数据分析，商业智能，再到人工智能与机器学习创新，并通过安全合规的方式进行集团内或公司之间的共享和输出。

亚马逊云科技大中华区产品部总经理陈晓建提到，构建端到端数据战略的三个核心为：建立面向未来的云原生数据基础设施；实现高效、跨组织的数据一体化融合；借助教育和工具，使数据普惠化。

其中，一个面向未来的云原生数据基础设施应该有四个核心要素：面对不同类型的工作负载，提供合适的工具；在大规模运行的情况下仍然保持高性能；通过智能化手段和工具为客户降低运营复杂性，有效提升工作效率；提供最高级别的可靠性和安全性，来保护数据存储。

亚马逊云科技大中华区产品部总经理陈晓建

用合适的数据库工具应对所有类型的工作负载

在工具方面，亚马逊云科技拥有最完整的数据库，包括关系数据库（如 Amazon Aurora）和 8 个专用数据库（如Amazon DynamoDB）为应用程序提供数据工作负载支持。同时，亚马逊云科技为分析工作负载提供最全面的服务，例如使用 Amazon Redshift 的 SQL 分析、使用 Amazon EMR 的大数据分析、使用 Amazon QuickSight 的商业智能以及使用 Amazon OpenSearch 的交互式日志分析。此外，亚马逊云科技还提供一系列广泛的功能来支持机器学习工作负载，包括 PyTorch 和 TensorFlow 等深度学习框架、可以更轻松地创建 ML 模型的 Amazon SageMaker 等服务，以及具有内置机器学习功能的 AI 服务，例如Amazon Transcribe 和Amazon Polly。

在本次大会上，亚马逊云科技宣布推出了适用于 Apache Spark 的 Amazon Athena，让用户使用Athena来调用Spark，在短短一秒内即可开始在Apache Spark运行交互式数据分析任务，用户无需准备基础架构配置。同时，客户还只需为使用的资源付费。

亚马逊云科技还宣布了针对 Apache Spark 的新 Amazon Redshift 集成预览，通过这一功能，客户可以通过Amazon EMR 或者Amazon Glue这样的Spark引擎来消费Amazon Redshift中的数据。与现有的 Amazon Redshift-Spark连接器相比，这种集成使Spark引擎对Amazon Redshift的数据抽取速度提高了10倍。

除了发布新特性，亚马逊云科技也在持续优化性能。客户在 Amazon EMR、Amazon Glue、Amazon SageMaker、Amazon Redshift 和Amazon Athena 上运行经过优化的Spark runtime，可以获得比开源版本 Spark 快 3 倍的性能。

在大规模的情况下保持高性能

Amazon Aurora的自动扩展功能可以将每个数据库实例可自动扩展到最大128TB，而只有其他传统企业级数据库大概1/10的使用成本；DynamoDB在2022年的Amazon Prime Day期间每秒处理超过一亿次的请求；上万个Amazon Redshift用户每天都会处理超过EB级别的数据总量，它也具备超过其他的云数仓约5倍的更好的性价比，同时，在高并发和低延时的场景下，比如报表和dashboard的应用，Amazon Redshift的性价比是其他方案的7倍。

在这些强大能力的基础上，本次re:Invent再次发布了多项数据库新特性，包括：Amazon DocumentDB Elastic Clusters，将Amazon DocumentDB集群弹性扩展到支撑百万级读写每秒和PB级存储容量的规模；Amazon RDS写优化，将数据写入吞吐量最高提升两倍；Amazon RDS读优化，将数据查询性能最高提升50%。

消除繁重的工作

亚马逊云科技通过自动化和机器学习的内置智能来减少手动任务。Amazon SageMaker支持新的地理空间机器学习功能Geospatial ML，客户只需单击几下即可从Amazon SageMaker访问不同的数据源上的地理空间数据。内置可视化工具使您能够使用 3D加速图形在交互式地图上分析数据和探索模型预测。本次大会还发布了Amazon OpenSearch Serveless，补上了分析服务Serverless化的最后一块拼图。

可靠性和安全性

本次大会新发布了Amazon RDS蓝/绿部署。为客户开辟一个测试环境进行补丁或者新配置的测试，当测试成功之后快速将测试环境切换为生产环境。这样的功能极大地节省了数据库团队运维中的操作压力，同时提升运维效率，保证数据零损失。

新发布的Amazon Redshift Multi-AZ多可用区功能，实现了Amazon Redshift的跨可用区容灾。这样的功能与Amazon Redshift本来具备的自动备份和恢复功能相结合，为客户的关键分析负载加上了双保险。

连接数据的能力与云原生数据基础设施一样重要。亚马逊云科技提出“零ETL”的未来：无需再次手动构建数据管道。亚马逊云科技在本次大会上发布了多项全新的集成功能，帮助客户实现“Zero-ETL”（零ETL）。例如，Amazon Aurora 将首次支持与 Amazon Redshift 的 Zero-ETL（提取、转换和加载）集成，将事务数据与分析功能结合在一起，消除了在 Aurora 和 Redshift 之间构建和管理自定义数据管道的所有工作。用户不必构建和维护复杂的数据管道来执行提取、转换和加载（ETL）操作。又如：亚马逊云科技打造出 Amazon DataZone，用于分类、发现、共享和管理数据的数据管理服务，可以集成 Redshift、Athena 和 QuickSight，以及对第三方数据源提供 API 接口，可实现细粒度数据管理，其中包含由机器学习填充的数据目录，易于使用业务术语进行搜索。

责任编辑：徐杰承来源： 51CTO

云原生数据库基础设施