过年期间,小芯努力学习了一些数据科学技能,作为数据领域的人,最终总会阅读并了解很多很多东西。
数据科学对小芯来说,是一种力量,能使企业和利益相关者做出明智的决策,并用数据解决问题。
如今,不是每个技术专家都对其他技能充满热情,但都会对自己工作领域的技能充满热情。数据科学家也是如此。新的一年,随着新技术趋势和更重大挑战出现,技术基础必须夯实。
下面是小芯整理出来的最新鲜的2020年数据科学家所需的10大技能,排序不分先后!
1. 数据库管理
对笔者来说,数据科学家是不一样的存在,他们需要掌握所有知识,包括数学、统计、编程、数据管理、可视化,以及定义非“完整堆栈”。
正如笔者前面提到的,80%的工作在于准备数据,以便能在项目环境中对数据进行处理。需要处理大量数据时,数据科学家要知道管理这些数据是非常重要的。
数据库管理本质上由一组可以编辑、索引和操作数据库的程序组成。数据库管理系统接受来自应用程序的数据请求,并指示操作系统提供所需的特定数据。在大型系统中,数据库管理系统帮助用户在任何给定的时间点存储和检索数据。
数据库管理能为数据科学带来什么?
- 定义、检索和管理数据库中的数据
- 操纵数据本身、数据格式、字段名、记录结构和文件结构
- 定义写入、验证和测试数据的规则
- 在数据库的记录层操作
- 支持多用户环境并行访问及操作数据
一些流行的数据库管理系统包括:MySQL、SQL服务器、Oracle、IBM DB2、PostgreSQL和NoSQL数据库(Mongo数据库、Couch数据库、Dynamo数据库、H库、Neo4j、Cassandra、Redis)
2. 机器学习/深度学习
如果你工作的公司管理并操作大量数据,并且决策过程是以数据为中心的,那么你可能需要掌握机器学习这一技能。机器学习是数据科学生态系统的一个子集,就像统计学或概率一样,它有助于数据建模和获得结果。
面向数据科学的机器学习包括对机器学习至关重要的算法;KNN最近邻算法,随机森林,朴素贝叶斯,回归模型,PyTorch、TensorFlow和Keras在数据科学机器学习中的也都很有用。
机器学习能为数据科学带来什么?
- 欺诈监测和风险管理
- 医疗保健(蓬勃发展的数据科学领域之一!遗传学、基因组学、图像分析)
- 航线规划
- 垃圾邮件自动过滤
- 面部和语音识别系统
- 改进的交互式语音响应(IVR)
- 全面的语言和文档识别和翻译
3. 数据可视化
数据可视化实际上意味着什么?对笔者来说,它是数据中发现的图形表示。可视化可以有效地沟通,并引导用户探索得出结论。
笔者是数据可视化的核心人物。可视化使笔者可以从数据中构思出故事,并创建全面的展示。数据可视化是更重要的技能之一,因为它不仅仅反映最终的结果,还能理解并学习数据及数据的脆弱性。
把事物形象地描绘出来总是好的;真正的价值已经确立和理解了。创建可视化时,肯定会得到有意义的信息,令人惊讶的是,这些信息竟然可以影响系统。
直方图、条形图、饼图、散点图、折线图、时间序列图、关系图、热图、地理图、三维图以及一长串可用于数据的可视化列表。如需更详细的列表,请访问此处。
数据可视化能为数据科学带来什么?
- 为强大的观点绘制数据
- 确定未知变量之间的关系
- 可视化需要关注或需要改进的领域
- 确定影响客户行为的因素
- 了解将哪些产品放在哪里
- 显示来自新闻、关系、网站、社交媒体的趋势
- 可视化信息量
- 客户报告、员工绩效、季度销售映射
- 针对用户群体设计营销策略
一些流行的数据可视化工具包括:Tableau、PowerBI、QlikView、谷歌分析(用于网络)、微软Excel、Plotly、融合图表、SAS
4. 多元微积分&线性代数
大多数机器学习,无一例外都是数据科学模型,都是由几个预测因子或未知变量构成的。多元微积分知识对建立机器学习模型有重要意义。以下是一些在数据科学工作中常见的数学话题:
- 导数和梯度
- 阶跃函数、S型函数、逻辑函数、ReLU函数
- 成本函数(最重要)
- 函数绘制
- 函数的最小值和最大值
- 标量、向量、矩阵和张量函数
5. 微软Excel表
众所周知,微软的电子表格可能是处理数据最好用并且最流行的工具之一。还可能会听到,“嘿,你收到老板发来的Excel表了吗?”等一下,本文不是在讨论数据科学的技能吗?Excel?笔者总认为一定有什么简单的方法来管理数据。随着用Excel进行数据管理的经验积累,笔者意识到,Excel是:
- 2D数据的最佳编辑
- 对高级数据进行分析的基础平台
- 在Python中实现与运行中Excel表的实时连接
- 让你可以在任何时候做任何你想做的事,并保存你喜欢的版本
- 使数据操作相对简单
如今,大多数非技术人员经常使用Excel表替代数据库。这可能是一个错误的用法,因为Excel表在某种程度上缺乏版本控制、准确性、可再现性或可维护性。然而,Excel所能做的也令人惊讶!
Excel能为数据科学带来什么?
- 命名并创建范围
- 过滤、排序、合并、修剪数据
- 创建透视表和图表
- Visual Basic for Applications (VBA)[如果你还不知道这是什么的话,谷歌一下。这是微软的超能力,在这里三言两语说不清楚。VBA是Excel的编程语言,使你可以运行循环、宏,if..else语句]
- 清除数据:删除重复值,在绝对、混合和相对之间更改引用
- 在数千条记录中查找所需数据
6. DevOps
顶级数据公司" src="http://p3.pstatp.com/large/pgc-image/de8671c26d984a89867aa8868167ac2d" _fcksavedurl="http://p3.pstatp.com/large/pgc-image/de8671c26d984a89867aa8868167ac2d" width="640" height="314">
笔者一直听说并相信数据科学是为懂数学、统计学、算法和数据管理的人而设的。不久前,笔者遇到了一个在核心开发方面有超过6年经验的人,他正在探索数据科学领域的职业转变。笔者出于好奇心研究了DevOps是否以及如何成为数据科学的一部分。虽然笔者对DevOps知之甚少(实际上,是什么都不知道),但有一点是肯定的:DevOps对数据科学越来越重要。
DevOps是一套将软件开发和信息技术操作相结合的方法,旨在缩短开发生命周期并提供高质量软件的不间断交付。
DevOps团队与开发团队密切合作,有效地管理应用程序的生命周期。数据转换要求数据科学团队与DevOps密切合作。DevOps团队预计将使用高可用性的Apache Hadoop、Apache Kafka、Apache Spark和Apache Airflow集群来处理数据提取和转换。
DevOps 会为数据科学带来什么?
- 提供、配置、扩展和管理数据集群
- 通过持续集成、部署和监控数据来管理信息基础架构
- 创建脚本,自动为各种环境调配和配置基础。
7. 概率&统计
数据科学是关于如何使用资本过程、算法或系统从数据中提取信息、见解等,以做出明智的决策。在这种情况下,做出推论、估计或预测就构成了数据科学的重要部分。
在统计方法的帮助下,概率有助于为进一步分析作出预估。统计学主要依赖于概率论。简而言之,概率与统计两者相互交织。
概率和统计能为数据科学带来什么?
- 探索并了解更多的数据信息
- 确定两个变量之间可能存在的潜在关系或依赖关系
- 预测未来趋势或基于之前的数据趋势来预测趋势
- 确定数据的模式或动机
- 发现数据中的异常
尤其是对于数据驱动型公司来说,利益相关者依赖数据进行决策和设计/评估数据模型,概率和统计是数据科学不可或缺的部分。
8. 编程、软件包和软件
当然!数据科学本质上是关于编程的。数据科学领域的编程技能汇集了能够将原始数据转化为可操作见解的所有基本技能。虽然对编程的语言选择没有具体规则,但Python和R是最受欢迎的。
对于编程语言的偏好或平台选择,笔者并不执着。数据科学家只是选择一种编程语言来解决手头的问题。然而,Python似乎已经成了数据科学的通用语言。
这里有一个编程语言列表和一些可供数据科学选择的软件包,顺序不分先后:
- Python
- R
- SQL
- Java
- Julia
- Scala
- MATLAB
- TensorFlow (非常适合Python中的数据科学)
并且,本文不是在写能用数据科学的编程技能做什么
下文全都是关于编码的。如果没有编码经验或不熟悉编码知识,数据科学将会很困难。因此,笔者总喜欢先温习Python技能,阅读项目相关文献,然后才开始构建代码。
9. 数据争论
通常,企业需要或接收的数据还并不适合用于建模。因此,非常有必要理解并掌握如何处理不完美的数据。
数据争论是为做进一步分析准备数据的过程;将原始数据从一种形式转换和映射到另一种形式,为深入了解数据做准备。对于数据争论,基本上就是获取数据,合并相关字段,然后清理数据。
数据争论能为数据科学带来什么?
- 通过从多个渠道收集数据,揭示数据中的深层智能
- 及时、准确地描述企业和数据分析师手中可操作数据
- 减少处理时间、响应时间以及收集、组织不规则数据所花费的时间
- 使数据科学家能够更加关注数据分析,而不是数据清理部分
- 领导数据驱动的决策过程,朝着准确数据支持的方向发展
10. 云计算
数据科学的实践通常包括使用云计算产品和服务来帮助数据专业人员访问管理和处理数据所需的资源。[customerthink.com]数据科学家的日常通常包括分析和可视化存储在云中的数据。
你可能已经了解到数据科学和云计算是相辅相成的,这通常是因为云计算帮助数据科学家使用诸如AWS、Azure、谷歌云等平台,通过这些平台能够访问数据库、框架、编程语言和操作工具。
熟悉数据科学包括与大量数据的交互这一事实,鉴于工具和平台的规模和可用性,理解云计算的概念对数据科学家来说不仅是一项相关技能,也是一项关键技能。
云计算能为数据科学带来什么?
- 数据采集
- 解析、管理、争论、转换、分析和数据杀毒
- 数据挖掘[探索性数据分析(EDA),汇总统计,…
- 验证和测试预测模型、推荐系统和诸如此类的模型
- 调整数据变量并优化模型性能
一些流行的数据科学云平台包括亚马逊网络服务、WindowsAzure、谷歌云或IBM云。笔者有时还读到,有人在尝试阿里巴巴云,这听起来很有趣。
你具备以上技能吗?