如何成为大数据工程师，大数据是未来的职业-大数据工程师要学什么

大数据是未来的职业。我还要说更多：开发人员的数据工程技能是迫切需要的。在2003年之前，我们每两天创建的数据量达到今天的PB级。Gartner分析师将云服务和网络安全列为2021年的主要技术趋势之一。

这种趋势很容易解释。需要安全地存储和处理大量的大数据数组，以获得有用的信息。当公司转移到远程工作时，这些需求变得更加明显。电子商务，医疗保健，教育科技-所有这些行业都想了解有关其在线消费者的所有信息。尽管数据仅存储在服务器上，但完全没有意义。

[[383568]]

我有数据吗？
干净，结构，融合-这些是数据工程的基本操作。专业人士应该知道如何合并从多个来源收集的不同格式的数据。我从事Python编程已经三年了，其中我已经沉浸在大数据领域两年了。从个人经验中，我意识到，对于日常工作，您需要能够做更多的事情。

基本上，数据工程师是四个角色的组合：

软件工程师。 编写代码，测试并对其进行优化。在我看来，数据工程最简单的途径就是软件工程。该专家知道如何安排计算机和程序。他/她熟悉高质量软件的开发和数据库的工作。

大数据开发人员。了解数据处理的原理，使用各种工具对其进行转换。他根据客户的请求或业务流程准备数据模型的描述。

数据库管理员。建立存储体系结构放在他的肩膀上。知道如何以最佳方式存储数据并对其执行基本操作。

云工程师。 如今的数据量如此之大，以至于将其存储在服务器上太昂贵或根本不可能-它根本不适合那里。云解决方案为您服务。这位工程师了解什么是云解决方案，它们的结构和特定功能是什么，它们如何彼此交互以及如何设置云服务。

从任何这些位置，您都可以切换到数据工程。

数据工程师，数据科学家或数据分析师：谁是最酷的？
这三位专家是由数据驱动的。每个人都有自己的责任。例如，数据工程师收到同事的请求以查找相关数据，以发现新功能的有效性。工程师从不同的来源（服务器，应用程序或云）中提取特定的数据，对其进行简化，处理并将其加载到正确的存储中。从那里，Data Analyst接受它-分析信息并将其转换为客户可以理解的格式。这可以是报告，信息图，演示文稿。专家会看到找到的指标之间的联系，并进行比较。当您需要预测患者状况或市场动态时，需要数据科学家。让我们以一个示例说明所有角色如何在项目中进行协作。

想象一下一个定期的社交网络来学习外语。人们会发现笔友并练习英语，德语，中文等。数以百万计的日常用户会留下数字痕迹：他们通过个人邮件登录，购买高级帐户，下载应用程序并通过视频拨打电话。每次点击都会被注册并发送到服务器。该公司希望跟踪该平台的有效性和盈利能力。数据工程师如何提供帮助？就个人而言，他不能。但是与数据科学家和数据分析师等同事一起，他发现的数据变成了有用的信息-统计信息，图表和预测。

这并不是说其中一些更有用，做更多的工作或更好地应对责任。他们的任务范围实际上可能有所不同，并取决于客户端设置的任务。唯一的是，数据工程师似乎正在“影子”中工作。如果您善于交际，并且知道如何与客户沟通，则值得研究分析师或数据科学家的专业。当然，这取决于您。

无论如何，没有工程师，团队将很难处理原始数据。他们与他一起从存储中获取干净，优化的数据。他们要做的就是计算统计数据，发现趋势并预测结果。三人一组在一起工作比单独完成所有工作要有效得多。

处理数据：数据工程师做什么？
有不同的数据源。工程师的任务是从中获取信息，统一来自不同来源的数据，进行处理，并根据要求进行简化和多样化。我们将以结构化查询语言编写的查询发送到数据库。SQL是使用最广泛的数据操作语言。因此，许多工具使用已经熟悉的语法。例如，Apache Hive或Impala。

要更改数据，您需要特殊的框架。Apache Spark，Apache Flink和Hadoop MapReduce允许您执行以下类型的转换：

数据清理
删除重复项
转换数据类型（字符串到数字或日期）
过滤
数据联接
数据推导

一些框架仅适用于处理流数据。其他仅用于已长时间存储在服务上的数据。有些可以同时做。假设我们需要删除不必要的记录并填写缺少的值。这通常是通过准备好的脚本来完成的。并非所有的框架都有能力以工程师想要的语言编写脚本。

通常，Python，Java和Scala编程语言用于转换数据。Hadoop，HDFS，Apache Cassandra，HBase和Apache Hive是用Java构建的。在Scala，Apache Kafka和Apache Spark上。在Python中，Pandas / NumPy。Dask +包装器适用于用其他语言（PyFlink，PySpark，Python Hadoop API）编写的框架。

要构建所有内容，有两种方法：ETL和ELT。如果我们处理的数据量很小或使用来自不同客户端的现成数据的数据库，则使用ETL更为方便。如果有很多混合信息，ELT会做得更好。在这种情况下，我们首先将数据加载到存储中，在单独的服务器上进行转换，然后在必要时将其拉出。

最终数据进入数据仓库或数据库。我们通过包含在外部服务API中的SQL请求或自定义脚本来设置投放。接下来是数据分析师和数据科学家。它们基于数据形成有用的信息。第一个创建报告，图形并在数据中找到模式，第二个使用机器学习方法进行预测。

数据工程技能：有什么用？
您肯定有工作要做。数据量只会增加。您将需要清洁它们，对其进行整理，分析。了解数据工程的基础知识至少对以下目的有用。

查找和整理数据
有关用户配置文件，购买，应用程序在不同设备上的点击次数的信息，所有这些信息均由工程师收集并按内容分组。如果一家公司正在为明年制定计划，并且想知道业务的预期增长，那么数据科学家和分析师将加入工程师团队。根据工程师收集的信息，他们找出了哪些利基市场以及销售下降的原因，最受欢迎的产品或功能。

提高数据传输速度
提高向目标系统或目标用户的数据传递速度。速度取决于框架，方法和服务的选择。例如，Hadoop MapReduce比Spark更具成本效益，但处理速度较慢。如果我们有流数据，则可以即时处理它，而不是将其保存到磁盘并稍后进行处理，将更加方便快捷。

降低仓储成本
在80年代，1 GB的HDD空间价格为500,000美元，而现在仅为0.025美元。从那时起，数据量增长了数百倍，硬盘驱动器无法处理它们。将信息存储在云上更加方便和安全。太字节级的服务每月将花费数十至数百美元。专家可以为客户选择最有利可图的服务和资费计划。

大数据是二十一世纪的“燃料”
如果我们抛弃所有数据，人类的发展将接近18世纪的水平。就像我们的祖先一样，我们仍然烤面包，使用公共和个人交通工具，医治人们。使用大数据可以让您卖出更多面包，优化出行，并加快科学发现和其他发现。

无论您是一家历史悠久的大公司，还是一家繁荣但规模小的创业公司，它对每个人处理数据都是有用的。对于普通用户，这没有任何意义，但是对于企业而言，这非常重要。例如，当销售下降时，从存储中提取必要的信息并找出原因就足够了。借助数据及其处理能力，我们可以获得新的知识。任何行业都只能从中受益。