25个热门新数据工具

新闻
当今快速发展的数据生态系统中有数十种新工具。 他们一起以令人兴奋,高效且通常令人惊讶的方式重塑数据工作。 下十年的数据前景已经播下,并且正在疯狂增长。

 "等等,工具X和工具Y是否一起工作? 我认为他们具有竞争力。"

当今快速发展的数据生态系统中有数十种新工具。 他们一起以令人兴奋,高效且通常令人惊讶的方式重塑数据工作。 下十年的数据前景已经播下,并且正在疯狂增长。

事实证明,培育一个新的生态系统很麻烦。

 

[[334823]]

混乱

混乱的一个症状是,即使其中的一些工具不具竞争力,它们中的许多工具也被认为具有竞争力。

虚假竞争的感觉不足为奇,因为:

  • 工具之间有很多重叠的功能。 部分原因是工具和产品需要"保留"基本功能-有时是在不是主要重点的领域;
  • 增长轨迹和类别边界仍然不确定;
  • 甚至在给定的利基市场中,还没有一种工具无处不在。
  • 鼓励企业家在推介风投和销售产品时都讲"大故事"。

因此,混乱是自然的。

这也很糟糕。 这对试图集中精力的工具制造者不利,对试图评估市场的投资者不利,尤其对于试图利用优秀新工具选项来构建生产性数据堆栈的数据科学家和工程师尤其不利。

清晰的时间

这篇博客文章是Sarah Catanzaro(Amplify Partners的合伙人),Abe Gong(Superduct / Great Expectations的联合创始人)和我本人(Data Council&Data Community Fund的创始人)之间的合作,旨在消除混乱和纠结。 它源于创业社区中厌倦了"等待,您不是竞争对手?"之类的人之间的对话。

我们已经遇到足够多的问题来识别模式了。 我们已经看到了它们对采用和协作造成的不幸影响。 现在该采取措施了。

您的工具不能做什么?

为了解决这个问题,我们联系了数据生态系统中的数十位企业家和开源维护者,并提出了两个问题:

1.您最擅长的工具是什么?

2.您的工具不能做什么?

我们的搜索范围仅限于开源项目和B系列之前的公司。 回答简短简短,并进行了编辑以保持清晰。

下面列出了所有参与工具,并按其响应顺序列出了这些工具。

生态系统的混乱不会在一夜之间消除,但我们希望这篇文章是一个好的开始。

工具与答案

  • Great Expectations/Superconductive:Great Expectations特别擅长测试数据系统并从这些测试创建文档。 寄予厚望的同时也进行数据分析。 寄予厚望是高度可插入和可扩展的,并且是完全开源的。 它不是管道执行框架或数据版本控制工具。
  • Databand:Databand是DataOps解决方案,其独特的优势在于可以监视生产管道并在工作流代码,数据或系统级别检测问题,并帮助工程师对问题进行根本原因分析。 数据带不是管道编排,数据质量测试或数据版本控制的解决方案。
  • Dolt / Liquidata:Dolt是具有Git版本控制的SQL数据库。 您可以像在Git中一样对SQL数据库进行提交,比较,克隆,提取,分支和合并。 Dolt是用于共享数据的独特好格式。 Dolt不是为特定的数据用例(例如功能存储或数据转换)设计的。 Dolt是可以在这些用例中应用的通用数据库。
  • Bayes:Bayes是一种可视化的探索性数据分析工具。 它会指导您进行建议的可视化操作,并通过基于交互式叙事的报告实现轻松,可解释的见解共享。 Bayes不是商业智能仪表板,也不是供程序员使用的基于代码的笔记本。
  • Hex:Hex是一个计算笔记本平台,擅长共享。 用户可以连接到数据,进行分析,然后轻松构建组织中任何人都可以使用的完全交互式,精美的应用程序。 Hex不是ML工程平台或图表工具。
  • Sisu数据:Sisu是一个主动分析平台,非常适合快速探索复杂的企业数据并帮助分析师解释关键业务指标为何在变化。 Sisu可以在几秒钟内测试数亿个假设,并引导用户找到影响很大的变革驱动力。 Sisu既不是预测工具或模型构建工具,也不是描述性仪表板。
  • Ascend:Ascend独特地擅长以更少的代码构建,运行和优化仅云数据管道。 Ascend将数据链接到生成它的代码,从而通过自动维护,数据概要分析,沿袭跟踪,成本优化以及易于集成到数据库,仓库,笔记本和BI工具的方式来建立声明性数据管道。 Ascend不是通用的Spark解决方案,而是位于最上面的数据工程平台。
  • Dataform:数据形式独特地擅长于帮助您管理数据仓库中的数百个数据集。 Dataform帮助团队将原始数据转换为一组定义明确,经过测试和记录在案的数据集以进行分析。 数据格式不是提取工具。
  • DataKitchen:DataKitchen是一个DataOps处理工具,独特地擅长将连续部署,可观察性,测试和环境管理带入复杂的数据科学和分析领域。 DataKitchen自动执行分析创建/部署工作流,管道执行,代码/数据测试以及管道监视/维护。 DataKitchen不是数据科学,ETL或专用编排工具。
  • Snorkel:Snorkel是用于以编程方式构建训练数据集的平台。 在Snorkel中,用户可以编写标签功能,而无需手工标记数据,Snorkel使用理论上扎实的建模技术将其结合在一起。 呼吸管与无监督学习无关。 它是一个在环人员平台,致力于从根本上加速用户如何将其领域知识注入ML模型。
  • Transform (stealth):Transform正在构建度量标准存储库,以确保企业可以以标准化,格式合理且有组织的方式捕获度量标准定义,以简化分析并以信心和速度进行决策。 转换不是数据流水线框架或商业智能工具。
  • Materialize:Materialize非常擅长在流数据之上执行和维护PostgreSQL查询(包括联接),使这些查询在高吞吐量下以毫秒级的延迟保持最新状态。 Materialize不是时间序列数据库或其他流式微服务平台。
  • Data Hub/ LinkedIn:DataHub是一个由元数据提供支持的搜索和发现应用程序,旨在提高AI和数据科学的生产率。 它具有独特的流优先的分布式元数据体系结构,已使其在LinkedIn的人员和大数据规模上获得成功。 它不是数据集成或处理工具,也不是用于运行数据质量检查的协调器。
  • Prefect:Prefect是一种工作流程编排工具,可让您使用纯Python API定义任务流,并使用现代的可扩展基础结构轻松部署它们。 Prefect为您提供了建立健壮管道所需的语义,例如重试,日志记录,缓存,状态转换回调,故障通知等,而又不会妨碍代码。 Prefect不是非代码工具或基础结构提供程序。
  • Mara / Project A:Mara擅长将SQL,Bash和Python脚本组合到管道中。 从命令行或通过Web UI运行管道。 本地执行,没有队列,没有工人,没有魔术。 Mara不是计划,数据移动或依赖关系检测工具。
  • dbt / Fishtown Analytics:dbt擅长在数据仓库中创建,维护和记录基于SQL的业务逻辑DAG。 dbt不是通用的工作编排器。
  • Watchful:Watchful独特地擅长于快速,大规模地创建高质量,带有概率标记的训练数据,而无需大批人工贴标签。 通过Watchful,您可以通过反馈快速构建,测试和原型化模型。 它不是托管标签服务或分析工具。
  • Preset:Preset是Apache Superset的制造商基于SaaS的数据探索和可视化平台。 预设与可视化和数据消耗有关,它不是计算或编排平台。
  • Kedro:Kedro展示了数据和ML管道的软件工程优秀实践。 Kedro使用可重现的分析工作流程,I / O抽象和管道建模,实现了从实验到生产的无缝过渡。 Kedro不是工作流程协调器或实验跟踪框架。
  • Toro数据:Toro独特地擅长于帮助团队在其数据上部署监视,建议监视哪些内容并使其易于执行而无需编写和部署代码。 Toro不会清理或转换数据,也不会原生控制管道/工作流程。
  • Tecton:Tecton擅长策划和提供功能。 Tecton不是数据处理引擎(例如Spark)或模型管理工具。 相反,它利用现有的数据处理引擎来处理原始批处理/流/实时数据,将其转换为功能,并部署这些功能以进行培训和提供服务。
  • Dagster / Elementl:Dagster是一个数据协调器,擅长为本地开发,测试,部署和操作构建数据应用程序。 Dagster管道组件可以使用任何语言或框架进行创作,并通过通用的元数据和工具组合在一起以形成统一的数据应用程序。 Dagster不是处理引擎,也不是数据仓库/对象存储。
  • Select Star:Select Star是解决数据发现问题的数据目录和管理工具。 它在帮助您理解数据方面具有独特的优势,即您拥有的数据,数据的存放位置,结构和使用方式。 Select Star不提供SQL客户端或ETL处理。
  • Monte Carlo (stealth):Monte Carlo是一个数据可靠性平台,其中包括数据监视,故障排除和事件管理。 蒙特卡洛不是测试框架,管道或版本控制工具。
  • Flyte / Lyft:Flyte独特地擅长迭代开发可伸缩的,容器本机的和可重复的管道,这些管道连接不同的分布式系统,同时使数据流处于中心位置。 Flyte不是机器学习平台,但可以成为其中的核心组件。

开始对话

我们编制这份清单的愿望是双重的。 一方面,我们想赞扬这些惊人的工具,创始人和OSS领导者,以推动我们的数据工具生态系统的发展。 另一方面,我们希望围绕社区清楚地了解这些工具的故意局限性展开有益的对话。 没有人能比所有人做得更好。 甚至是创新者!

我们希望本文能够为我们现代的数据工具生态系统野生花园提供有益的启示。 祝愿它在我们有意培育的过程中继续蓬勃发展。

 

责任编辑:华轩 来源: 今日头条
相关推荐

2020-04-26 08:22:53

前端网站工具代码

2015-12-28 11:17:30

Java机器学习工具

2018-08-27 09:00:00

网站缺陷跟踪工具调试工具

2015-09-10 10:59:34

大数据趋势

2014-12-19 10:55:17

Linux性能监控

2023-10-29 16:44:39

数据质量管理开源

2023-12-26 08:37:41

2015-10-29 09:46:29

PHP开发工具

2015-07-03 11:36:00

AngularJS 开发工具

2021-08-02 09:00:00

DevOps工具开发

2017-02-21 15:00:06

Android

2015-01-22 12:25:43

开源项目.NET开源

2021-12-13 16:16:42

Java开发工具

2023-05-29 14:07:00

WebHaikei应用程序

2023-09-08 10:21:46

TypeScript前端工具

2023-02-17 12:06:06

2019-05-15 10:42:26

超算芯片计算机

2023-12-06 12:51:00

容器编排工具

2015-04-15 09:28:45

JavaScript热门工具

2018-07-18 06:54:15

数据存储初创公司存储
点赞
收藏

51CTO技术栈公众号