数据分析和数据科学的五大不同之处

译文 精选
大数据 数据分析
您在纠结自己的职业道路上应该选数据分析方向、还是数据科学领域吗?本文将从五个方面为您比较两者的不同特点,以方便您做出正确的选择。

在大数据的世界里,您可能会经常听到两个词语:数据科学(Data Science)和数据分析(Data Analytics)。它们虽然从字面上有些相似,但是在大数据的背景下它们强调的是不同的能力和技能方面。下面,我将从职业决策与规划的角度,和您讨论两者之间的差异。

一、知识储备

无论是数据分析还是数据科学领域,都正在变得更加丰富、更加专业化。因此,如果您想进入这两种职业领域中的任何一种,都需要做好充分的准备,以满足各项实际工作的需求。其中:

数据分析

数据分析领域的相关工作,往往需要事先对RDBMS(关系数据库管理系统,Relational Database Management System)和操作数据结构模式(Structure Schema)的SQL、以及查询开发等方面有所了解。同时,您也需要具备使用R或Python语言,进行统计编程的相关知识。此外,机器学习(Machine Learning,ML)、人工智能(Artificial Intelligence,AI)、自定义算法的开发、以及围绕着信息收集与存储的数据管理知识,也会让您达到事半功倍的效果。简而言之,您需要拥有IT、计算机科学、数学、以及统计学的相关应用知识与技能。

数据科学

数据科学家往往具有计算机科学、信息技术、应用数学或统计学的教育背景。这些核心知识可以为您开展提供、收集、组织、处理和建模业务数据,做好准备。同时,您也可以了解并掌握有关数据可视化、基于API的数据收集与准备等方面的专业知识。这些对于您开展探索性数据分析,遵循和建立模型,以及对模型进行定制化设计与测试等工作,都十分有益。此外,您在基于AI的预测性建模时,前面提到的ML和AI领域的相关技能也总归是技不压身的。

2. 工作角色和职责

无论是数据分析师还是数据科学家,根据专业水平和企业性质的差异,他们的日常角色和工作职能也会有所不同。主要体现在:

数据分析

数据分析师往往主要聚焦于分析、可视化、以及挖掘那些特定于业务的数据。其角色职能包括:

  • 清理、处理、验证、以及例证(exemplify)数据的完整性
  • 对大型数据集进行探索性数据分析
  • 实施​​ETL​​(抽取extract、转换transform、加载load)管道,并进行数据挖掘
  • 使用逻辑回归、KNN(K最邻近,K-NearestNeighbor分类算法)、随机森林、以及决策树,进行统计分析
  • 在编写自动化代码的同时,构建和管理机器学习(ML)库
  • 使用ML工具和算法获得新的数据洞见
  • 识别数据模型,进而做出明智的、以数据为支持的预测

数据科学

数据科学主要涉及到从业务的上下文数据中,获得洞见并得出推论。其角色职能包括:

  • 收集和解释数据
  • 识别数据集中的相关模式
  • 执行基于SQL的数据查询和子查询
  • 使用SQL、Python、SAS(统计分析软件)等RDBMS工具去查询数据
  • 熟练掌握各种预测性、规范性、描述性和诊断性的分析工具
  • 掌握Tableau和IBM Cognos Analytics等可视化工具的使用

3. 基本技能组合

由于这两个角色都属于专业领域,因此它们需要特定的技能集,才能胜任日常的基本工作。具体而言:

数据分析

除了具有问题解决能力的中级统计(intermediate statistics)知识和高级分析技能外,数据分析师的技能还包括:

  • 能够通过Microsoft Excel和SQL数据库,对数据进行切片和切块
  • 运用商业智能工具生成相关报告
  • 通过运用Python、R和SAS等工具,来管理、操作和使用数据集
  • 相对于IT工程经验,数据分析师更需要掌握学习统计、数据库管理、数据建模、以及预测分析等技能。

数据科学

作为数据科学家,您除了需要精通数学、高级统计学、预测性建模、以及机器学习之外,还需要掌握如下领域的软件知识:

  • Hadoop和Spark针对大数据工具的专业知识
  • SQL、NoSQL和PostgreSQL数据库方面的专业知识
  • 了解数据可视化工具和诸如Scala和Python之类的语言

4. 工具谱

常言道:“工欲善其事,必先利其器。”好的工具无论是对于数据分析,还是数据科学都是至关重要。为了便于下载和选用,我将当前市场上的工具,有针对性地进行了分类:

数据分析

  • 数据可视化类:Splunk、QlikView、Power BI、以及Tableau
  • ETL类:Talend
  • 大数据处理类:Spark和RapidMiner
  • 数据分析类:Microsoft Excel、R、以及Python

数据科学

  • 应用数据科学类:SAS、KNIME、RapidMiner、PowerBI、以及DataRobot
  • ETL类:Apache Kafka
  • 大数据处理类:Apache Hadoop、Spark
  • 数据可视化类:Tableau、BigML、Trifacta、QlikView、MicroStrategy、以及Google Analytics
  • 数据分析类:Microsoft Excel、Apache Flink、SAP Hana、MongoDB、MiniTab、以及SPSS
  • 编程类:R、Julia、以及Python
  • 编程库类:可用于针对基于Python数据建模的TensorFlow

5. 职业机会

有了前面的信息,您一定想知道在企业中,会有哪些适合数据分析和数据科学领域的热门职业可供选择呢?

数据分析

  • 商业智能分析师
  • 数据分析师
  • 定量分析师
  • 数据分析顾问
  • 运营分析师
  • 营销分析师
  • 项目经理
  • IT系统分析师
  • 运输物流专家

数据科学

  • 数据分析师
  • 数据工程师
  • 数据库管理员
  • 机器学习工程师
  • 数据科学家
  • 数据架构师
  • 统计员
  • 业务分析师
  • 数据和分析经理

小结

根据上述比较,我们不难发现企业对于数据科学家本身、以及技能上的要求,要比对普通数据分析师的要求高出一些。不过,在职场上,人们通常会以数据分析师的身份开始他们的职业生涯,然后再逐渐转向数据科学领域。对于初学者而言,您也可以从数据架构、以及数据工程的相关职位开始,不断打磨和历练自己,最终成为该领域的专家。

译者介绍

陈峻 (Julian Chen),51CTO社区编辑,具有十多年的IT项目实施经验,善于对内外部资源与风险实施管控,专注传播网络与信息安全知识与经验;持续以博文、专题和译文等形式,分享前沿技术与新知;经常以线上、线下等方式,开展信息安全类培训与授课。

原文标题:Data Analysis vs. Data Science: 5 Things to Consider,作者:GAURAV SIYAL

责任编辑:华轩 来源: 51CTO
相关推荐

2022-11-23 11:20:49

工业物联网物联网

2009-11-20 08:41:47

2020-08-06 07:00:00

数据分析技术IT

2012-08-31 11:21:12

云计算大数据

2021-01-13 15:13:07

Python开发 工具

2016-10-27 13:53:20

数据分析大数据

2014-02-24 10:02:52

2021-03-09 16:38:48

加密货币比特币货币

2018-02-28 12:22:25

区块链数据存储

2019-01-08 16:25:42

数据科学机器学习神经网络

2013-11-29 14:28:54

2023-01-28 10:09:00

Pandas数据分析Python

2017-03-20 09:58:43

网络数据分析工具

2024-01-03 15:00:01

数据分析人工智能物联网

2012-04-18 09:42:36

数据分析Hadoop

2010-05-24 18:49:13

MySQL数据库

2010-04-20 14:32:49

Oracle LABE

2009-08-20 10:39:00

Java与C#的不同之

2010-04-20 16:07:25

Oracle DRCP

2022-11-14 10:36:55

数据科学数据分析
点赞
收藏

51CTO技术栈公众号