开放源代码版本上的数据机制改进
如果您正在寻找关于Kubernetes上的Spark的高级介绍,请签出在Kubernetes上运行Spark的优缺点,如果您正在寻找更深的技术潜水,那么阅读我们的指南设置,管理和监控Spark在kubernetes上。
Data Mechanics是一个托管的Spark平台,部署在客户的云帐户内的Kubernetes集群上,可在AWS,GCP和Azure上使用。因此,我们整个公司都建立在Kubernetes上的Spark之上,并且经常被问到与简单地在Kubernetes开源上运行Spark有何不同。
简短的答案是,我们的平台实现了许多功能,这些功能使Kubernetes上的Spark更加易于使用且更具成本效益。通过照顾设置和维护,我们的目标是让您专注于并加速其采用,并节省大量维护工作。我们的目标是通过使Spark变得应有的简单,灵活和高性能来加速您的数据工程项目。
让我们来谈谈基于Spark-on-Kubernetes的主要改进。
直观的用户界面
Data Mechanics用户将获得一个仪表板,他们可以在其中查看其每个Spark应用程序的日志和指标。他们还可以访问Spark UI,该UI很快将被我们自己开发的监视工具Data Datas Delight取代(更新,2020年12月:第一个令人高兴的里程碑已经发布!)。该项目的目的是使Spark开发人员在出现故障时能够轻松对其应用程序进行故障排除,并在必要时为他们提供高级建议,以提高其性能(例如,围绕数据分区和内存管理)。
> Data Mechanics Delight
他们还可以访问“作业用户界面”,该界面提供了管道主要指标的历史图表,例如处理的数据量,持续时间和成本。这样,您的团队就可以轻松确保生产管道按预期运行,并在必要时跟踪成本。
> Data Mechanics Jobs UI
动态优化
Data Mechanics平台自动动态地优化您的管道基础结构参数和Spark配置,以使其快速,稳定。这是我们需要调整的设置:您的Pod的内存和CPU分配,磁盘设置以及有关并行性,随机播放和内存管理的Spark配置。我们通过分析应用程序的日志和指标,并使用应用程序过去运行的历史来找出瓶颈并对其进行优化来实现。
> Data Mechanics’ Auto Tuning Feature
除了自动调整外,我们的平台还可以在Spark应用程序(动态分配)的级别和Kubernetes集群的级别实现自动扩展。这意味着我们管理Kubernetes节点池,以在需要更多资源时缩放群集,并且当它们不必要时,将其降低到零。我们还可以轻松使用Spark Ojecutors的现货节点进一步降低云成本。
> Data Mechanics’ Autoscaling Feature
最后但并非最不重要的一点,我们提供了一个Spark映像列表,其中包含针对常见数据源和接收器的优化连接器。您可以直接使用这些映像,也可以将它们用作使用自定义依赖项构建自己的Docker映像的基础。
这些优化的目标是为您提供Spark应该提供的最高性能,并降低您的云成本。实际上,我们为我们的服务收取的管理费远远超过了我们在您的云提供商账单上节省的费用。我们已帮助从竞争性Spark平台迁移的客户将其云计算费用减少了50%至75%。
整合方式
Data Mechanics与笔记本服务(如Jupyter,JupyterLab,JupyterHub)和调度程序/工作流服务(如Airflow)集成在一起。
由于我们的平台部署在您可以控制的Kubernetes集群上,因此您也可以使用Docker / Kubernetes兼容工具的完整生态系统。而且,由于我们已部署在您的云帐户,VPC中,因此您还可以轻松地使用公司网络内的本地工具构建自己的集成。
> Data Mechanics’ Native Integrations With Jupyter, Docker, Kubernetes, Airflow
托管服务让您高枕无忧
作为托管服务,我们会处理您的基础架构的设置和维护。注册数据机械师时,您会在云帐户上给出客户的权限,我们使用这些权限创建Kubernetes集群,使其与最新的安全修复程序保持最新,并推送每两个新功能的发布周。
> The Data Mechanics Platform Architecture
确保您的部署安全也是我们的责任。我们可以在您公司的VPC内进行部署,并将您的集群设为私有,因此只能通过您公司的虚拟专用网对其进行访问。我们为您提供工具,以通过多个选项来应用安全性最佳实践,以进行数据访问和用户身份验证(单点登录)。
结论
我们很自豪能够在Kubernetes以及其他开源项目的基础上,有时甚至为它们做出贡献。我们正在尝试以公开透明的方式构建您自己构建的数据平台。通过部署在您的云帐户和VPC中,您将获得本地项目的灵活性以及托管平台的易用性。
我们内部进行的优化并不能完全弥补我们的定价,事实上,我们已经帮助一些客户从竞争平台迁移时将总成本降低了50%至75%。
原文链接:
https://medium.com/data-mechanics/spark-on-kubernetes-made-easy-how-data-mechanics-improves-on-the-open-source-version-3446e6672240