远不止编码:如何规划组织数据科学及分析项目?

大数据 数据分析
执行一个数据科学/分析项目从来不是一件容易的事情。一个成功而全面的分析项目远远不止是编码,它还涉及复杂的设计和大量的沟通。

本文转载自公众号“读芯术”(ID:AI_Discovery)。

执行一个数据科学/分析项目从来不是一件容易的事情。一个成功而全面的分析项目远远不止是编码,它还涉及复杂的设计和大量的沟通。

[[349007]]

什么是分析项目的生命周期?

要完成一个数据科学/分析项目,你需要经历五个主要阶段,从了解问题和设计项目,到收集数据、进行分析、展示结果,记录和自我反思。

笔者强烈地感受到,运行一个分析项目和建造一座房子非常相似。首先,建筑师满足其客户,了解需求并提出一个可行的蓝图(理解和规划)。然后需要收集建筑材料,如水泥、钢材、砖块等。你必须了解建筑材料的特点,并选择合适的建筑材料。否则,房子可能会很容易倒塌。

这就像一个数据收集过程,你必须做一些EDA或特性工程来理解数据,并找到正确的数据来解决问题,否则可能无法从分析中获得可靠具体的结果。

有了建筑材料和蓝图,就可以开始建造房子了(运行分析)。施工结束后,要进行现场检查和质量检查,以确保安全。同样,我们需要记录分析项目的方法、结论和局限性。

1. 理解和规划

如果有人问我整个周期中最关键的阶段是什么,我会毫不犹豫地说理解和规划,因为数据科学和分析的主要目的不是用花哨的技术创建一个项目,而是解决实际问题。

因此,分析项目的成功在很大程度上取决于理解程度、对问题的定义以及将业务问题转化为分析问题的程度。从这个角度来看,花时间考虑分析项目更广泛的背景总是值得的。

2. 提出问题

通常一个分析项目从与合伙人的会议开始,你会与商业伙伴见面。他们将提供一些背景,并简要介绍需求,提出明智的问题能让你更好地理解客户的痛点和需求。

3. 分析计划

在深入分析之前,先制定一个分析计划,并安排另一个后续会议来回顾问题并强化预期。这个计划将提供一个高层次的计划概览,给出下一个步骤的清晰蓝图,并从业务方面指出技术行动和广阔蓝图之间的联系。以下是我分析计划中的一些关键元素:

不要让数据科学和技术变得晦涩难懂。试着用通俗的语言对这些方法进行简要描述,概述用例和场景,总结其优势和局限性。避免使用复杂的公式或函数,而是专注于该方法如何帮助解决问题。

完成一个分析项目可能需要几周时间,有时甚至更久。一个项目所花费的时间越长,某些变数对工作造成不利影响的可能性就越大。因此,项目开始之前,第一件事是分解完成项目必须要做的所有步骤。然后根据所需的大致时间来完成这些任务,并记录每个重大突破。

建议在项目的中间设置一些签入点,以便与涉众交流并获得他们的反馈,这样就可以进行及时的调整,而不只是做一个最后的演示。

如何组织项目并跟踪进度

1. 利用项目管理工具

当你在做一个复杂的分析项目,且需要与多个团队(如工程、产品和业务等)协作时,一个简单的待办事项列表或基于excel的跟踪器就无法满足需求了。

你可以利用专门的项目管理工具和软件。如果你用谷歌和简单的搜索项目管理工具会发现很多,比如Asana、Trello、JIRA、Monday.com等等。你可以根据团队规模和喜欢的工作方式找到合适的工具。

这个概念征服了我,因为它是一个集多个工作应用于一身的多功能工作区。为了不同的目的而拥有多种工具并不可取,所以可以想象,“多功能”是最有效的营销信息。对我来说,在一个地方做计划、跟踪、知识共享和写博客是一个很好的选择,它还提供了一些模板来帮助制定旅行计划以及跟踪求职进度。

[[349008]]

图源:unsplash

2. 迭代策划会议( Sprints Planning)

一个强大的工具就像私人助理。那么如何保证合作,使项目运转起来?来谈谈迭代策划会议。

对于那些不熟悉sprint概念的人来说,迭代策划是一个短期的、有时间限制的时间段,这个时间段内,团队工作以完成一定数量的工作。迭代策划使项目更易于管理,允许团队更快、更频繁地交付高质量的工作,并使他们能够更灵活地适应变化。

进行迭代策划会议的首要任务是确定时限。尽管没有硬性规定每个sprint应该有多长时间,但它必须足够长才能确保任务能够完成,同时它也必须足够短,以便需求和目标保持不变。

在迭代策划会议上,整个团队将在接下来的迭代策划中调整目标,并计划有助于实现该目标的工作。这些任务将被逐条列出,按优先级排列,分配给团队成员,并记录到接下来的迭代策划董事会中。

3. 日常反馈

迭代策划会议是明确未来要实现的目标和交付的任务,以推动项目的进展,而每天5到10分钟的自由讨论会议将有助于使计划与执行保持一致。更具体地说,这是为了让团队保持一致,明确优先级,避免一些常见的阻碍因素。

简要来说,下面是每个人都会回答的三个基本问题:

  • 你昨天做了什么?
  • 你今天做什么?
  • 是什么阻碍了你?

不要忽视记录和反思的重要性

我已经在数据分析、数据科学领域工作了六年多,多希望能在我开始职业生涯时就可以明白——记录和反思与分析本身同样重要。你做的所有的分析项目可能在简历中成为一个闪光点,并成为面试的话题,总结和框架分析工作一旦完成非常有利于发现新的天地,并巩固所有的内容和架构。

对你的分析进行记录和架构

你可以按照这个框架来处理情况、问题、解决方案和下一步行动(SPSN)。

首先,描述当前的状态和痛点,然后描述问题并指出这个项目的业务影响。

最关键的部分是解决方案,在该解决方案中,你将在较高的层次上概述这些方法,并逐步提供有关数据和分析的细节。然后将分析产生的结果、见解和可操作的建议记录下来。

请注意,没有完美的数据科学项目。开诚布公地谈论项目的注意事项和局限性,既要提出你的分析可以解决的问题,又要了解什么样的问题是不能回答的。

最后一部分是测试提高准确性的新方法,包括新的数据源,或者自动化整个过程,以使结果每天都显示出来等等。同时,不要忘了做自我反省,创建一个网格,把你在每个分析项目中遇到的一些例子和情况分成下面五个类别。

这一定能帮助你更顺利地实现整个过程的分析/数据科学项目!

 

责任编辑:赵宁宁 来源: 今日头条
相关推荐

2013-11-25 09:27:08

大数据即服务大数据分析大数据服务

2023-11-08 14:45:14

AIGC生成式人工智能

2017-01-11 08:51:26

数据分析职业规划

2015-10-09 09:52:07

视觉设计好看

2018-03-29 09:22:06

Facebook数据app

2023-06-05 18:25:52

物联网大数据

2021-11-15 15:45:46

5G制造5G物联网

2014-03-03 11:34:55

MWC

2020-06-11 17:15:31

区块链金融数字货币

2019-05-27 16:10:28

MySQL数据库SQL

2018-08-02 15:36:08

2023-11-03 17:21:05

DevOps人工智能

2013-10-29 13:28:13

数据

2023-10-09 08:22:18

驱动科学数据分析因素

2020-09-09 11:23:22

数据科学与分析

2022-11-14 10:36:55

数据科学数据分析

2020-04-01 11:21:22

数据科学人工智能职业生涯

2017-03-07 10:37:05

非数据数据分析

2016-12-28 18:07:08

大数据大数据技术大数据发展趋势
点赞
收藏

51CTO技术栈公众号