随着各种云端服务的涌现,数据仓库领域近些年发生了剧烈变化,因为云端服务可以实现极高的性能、简单的部署、近乎无限的可扩展性和轻松的管理方式,而成本只有内部解决方案的一小部分。因此,企业很快都在将其数据仓库从内部迁移到云中。AWS 提供全套服务,可实施从数据收集和存储到处理和可视化在内的整个数据仓库工作流程。
Amazon Redshift 是一种快速且完全托管的数据仓库,让您可以使用标准 SQL 和现有的商业智能 (BI) 工具经济高效地轻松分析您的所有数据。利用 Amazon Redshift,您可以使用高性能本地磁盘上的列式存储通过复杂的查询优化对 PB 级结构化数据运行复杂的分析查询,并能大规模执行并行查询。大多数结果在几秒内返回。使用 Amazon Redshift 时,您可以从小规模开始,费用只有每小时 0.25 USD,并且无需承诺;然后将数据量扩展到 PB 级,费用为每年每 TB 1000 USD,不到传统解决方案的十分之一。
Amazon Redshift 还包含 Redshift Spectrum,让您可以对 Amazon S3 中的 EB 级非结构化数据直接运行 SQL 查询。不需要加载或转换,并且您可以使用 Avro、CSV、Grok、Ion、JSON、ORC、Parquet、RCFile、RegexSerDe、SequenceFile、TextFile 和 TSV 等开源数据格式。Redshift Spectrum 可以根据检索的数据自动扩展查询计算容量,因此对 Amazon S3 的查询速度非常快,不受数据集大小的影响。
优势
1、快速
Amazon Redshift 使用列存储技术来改善 I/O 效率并能跨过多个节点并行查询,可以实现快速查询。数据加载的速度随着集群的大小线性扩展;能够与 Amazon S3、Amazon DynamoDB、Amazon EMR、Amazon Kinesis 和任何启用 SSH 的主机集成。
2、价格低廉
您只需按实际使用量付费。每年每 TB 1000 USD 即可让不限数量的用户对您的所有数据进行不限次数的分析,成本只有传统数据仓库解决方案的十分之一。大多数客户的数据大小在压缩之后减小到原来的三分之一到四分之一,每年每 TB 未压缩数据的成本降低到 250 – 333 USD。
3、可扩展
Redshift Spectrum 让您可以利用现在使用的 SQL 语法和 BI 工具,对 Amazon S3 中的 EB 级数据进行查询,就像在 Amazon Redshift 本地磁盘中存储的 PB 级数据运行查询一样简单。您可以将高度结构化并且频繁访问的数据存储在 Redshift 本地磁盘中,并将大量非结构化数据存储在 Amazon S3“数据湖”中,然后在二者范围内进行无缝查询。
4、简单
借助 Amazon Redshift,您可以轻松自动执行大多数常规管理任务,以管理、监控和扩展数据仓库。通过处理所有这些耗时耗力的任务,Amazon Redshift 使您得到了解脱并专注于您的数据和业务。
5、可扩展
只需在控制台中单击几下或使用简单的 API 调用,即可根据性能和容量需求的更改来轻松扩展和缩小集群。
6、安全
安全件是内置的。您可以使用硬件加速型 AES-256 和 SSL 加密静态和动态数据,使用 Amazon VPC 隔离您的集群,甚至使用 AWS Key Management Service (KMS) 和硬件安全模块 (HSM) 管理您的密钥。
7、兼容
Amazon Redshift 支持标准 SQL 并提供自定义 JDBC 和 ODBC 驱动程序 (您可从控制台下载这些驱动程序),从而使您能够使用各种常见的 SQL 客户端。您也可以使用标准的 PostgreSQL JDBC 和 ODBC 驱动程序。