在大数据的世界里,您可能会经常听到两个词语:数据科学(Data Science)和数据分析(Data Analytics)。它们虽然从字面上有些相似,但是在大数据的背景下它们强调的是不同的能力和技能方面。下面,我将从职业决策与规划的角度,和您讨论两者之间的差异。
一、知识储备
无论是数据分析还是数据科学领域,都正在变得更加丰富、更加专业化。因此,如果您想进入这两种职业领域中的任何一种,都需要做好充分的准备,以满足各项实际工作的需求。其中:
数据分析
数据分析领域的相关工作,往往需要事先对RDBMS(关系数据库管理系统,Relational Database Management System)和操作数据结构模式(Structure Schema)的SQL、以及查询开发等方面有所了解。同时,您也需要具备使用R或Python语言,进行统计编程的相关知识。此外,机器学习(Machine Learning,ML)、人工智能(Artificial Intelligence,AI)、自定义算法的开发、以及围绕着信息收集与存储的数据管理知识,也会让您达到事半功倍的效果。简而言之,您需要拥有IT、计算机科学、数学、以及统计学的相关应用知识与技能。
数据科学
数据科学家往往具有计算机科学、信息技术、应用数学或统计学的教育背景。这些核心知识可以为您开展提供、收集、组织、处理和建模业务数据,做好准备。同时,您也可以了解并掌握有关数据可视化、基于API的数据收集与准备等方面的专业知识。这些对于您开展探索性数据分析,遵循和建立模型,以及对模型进行定制化设计与测试等工作,都十分有益。此外,您在基于AI的预测性建模时,前面提到的ML和AI领域的相关技能也总归是技不压身的。
2. 工作角色和职责
无论是数据分析师还是数据科学家,根据专业水平和企业性质的差异,他们的日常角色和工作职能也会有所不同。主要体现在:
数据分析
数据分析师往往主要聚焦于分析、可视化、以及挖掘那些特定于业务的数据。其角色职能包括:
- 清理、处理、验证、以及例证(exemplify)数据的完整性
- 对大型数据集进行探索性数据分析
- 实施ETL(抽取extract、转换transform、加载load)管道,并进行数据挖掘
- 使用逻辑回归、KNN(K最邻近,K-NearestNeighbor分类算法)、随机森林、以及决策树,进行统计分析
- 在编写自动化代码的同时,构建和管理机器学习(ML)库
- 使用ML工具和算法获得新的数据洞见
- 识别数据模型,进而做出明智的、以数据为支持的预测
数据科学
数据科学主要涉及到从业务的上下文数据中,获得洞见并得出推论。其角色职能包括:
- 收集和解释数据
- 识别数据集中的相关模式
- 执行基于SQL的数据查询和子查询
- 使用SQL、Python、SAS(统计分析软件)等RDBMS工具去查询数据
- 熟练掌握各种预测性、规范性、描述性和诊断性的分析工具
- 掌握Tableau和IBM Cognos Analytics等可视化工具的使用
3. 基本技能组合
由于这两个角色都属于专业领域,因此它们需要特定的技能集,才能胜任日常的基本工作。具体而言:
数据分析
除了具有问题解决能力的中级统计(intermediate statistics)知识和高级分析技能外,数据分析师的技能还包括:
- 能够通过Microsoft Excel和SQL数据库,对数据进行切片和切块
- 运用商业智能工具生成相关报告
- 通过运用Python、R和SAS等工具,来管理、操作和使用数据集
- 相对于IT工程经验,数据分析师更需要掌握学习统计、数据库管理、数据建模、以及预测分析等技能。
数据科学
作为数据科学家,您除了需要精通数学、高级统计学、预测性建模、以及机器学习之外,还需要掌握如下领域的软件知识:
- Hadoop和Spark针对大数据工具的专业知识
- SQL、NoSQL和PostgreSQL数据库方面的专业知识
- 了解数据可视化工具和诸如Scala和Python之类的语言
4. 工具谱
常言道:“工欲善其事,必先利其器。”好的工具无论是对于数据分析,还是数据科学都是至关重要。为了便于下载和选用,我将当前市场上的工具,有针对性地进行了分类:
数据分析
- 数据可视化类:Splunk、QlikView、Power BI、以及Tableau
- ETL类:Talend
- 大数据处理类:Spark和RapidMiner
- 数据分析类:Microsoft Excel、R、以及Python
数据科学
- 应用数据科学类:SAS、KNIME、RapidMiner、PowerBI、以及DataRobot
- ETL类:Apache Kafka
- 大数据处理类:Apache Hadoop、Spark
- 数据可视化类:Tableau、BigML、Trifacta、QlikView、MicroStrategy、以及Google Analytics
- 数据分析类:Microsoft Excel、Apache Flink、SAP Hana、MongoDB、MiniTab、以及SPSS
- 编程类:R、Julia、以及Python
- 编程库类:可用于针对基于Python数据建模的TensorFlow
5. 职业机会
有了前面的信息,您一定想知道在企业中,会有哪些适合数据分析和数据科学领域的热门职业可供选择呢?
数据分析
- 商业智能分析师
- 数据分析师
- 定量分析师
- 数据分析顾问
- 运营分析师
- 营销分析师
- 项目经理
- IT系统分析师
- 运输物流专家
数据科学
- 数据分析师
- 数据工程师
- 数据库管理员
- 机器学习工程师
- 数据科学家
- 数据架构师
- 统计员
- 业务分析师
- 数据和分析经理
小结
根据上述比较,我们不难发现企业对于数据科学家本身、以及技能上的要求,要比对普通数据分析师的要求高出一些。不过,在职场上,人们通常会以数据分析师的身份开始他们的职业生涯,然后再逐渐转向数据科学领域。对于初学者而言,您也可以从数据架构、以及数据工程的相关职位开始,不断打磨和历练自己,最终成为该领域的专家。
译者介绍
陈峻 (Julian Chen),51CTO社区编辑,具有十多年的IT项目实施经验,善于对内外部资源与风险实施管控,专注传播网络与信息安全知识与经验;持续以博文、专题和译文等形式,分享前沿技术与新知;经常以线上、线下等方式,开展信息安全类培训与授课。
原文标题:Data Analysis vs. Data Science: 5 Things to Consider,作者:GAURAV SIYAL