本文转载自公众号“读芯术”(ID:AI_Discovery)。
执行一个数据科学/分析项目从来不是一件容易的事情。一个成功而全面的分析项目远远不止是编码,它还涉及复杂的设计和大量的沟通。
什么是分析项目的生命周期?
要完成一个数据科学/分析项目,你需要经历五个主要阶段,从了解问题和设计项目,到收集数据、进行分析、展示结果,记录和自我反思。
笔者强烈地感受到,运行一个分析项目和建造一座房子非常相似。首先,建筑师满足其客户,了解需求并提出一个可行的蓝图(理解和规划)。然后需要收集建筑材料,如水泥、钢材、砖块等。你必须了解建筑材料的特点,并选择合适的建筑材料。否则,房子可能会很容易倒塌。
这就像一个数据收集过程,你必须做一些EDA或特性工程来理解数据,并找到正确的数据来解决问题,否则可能无法从分析中获得可靠具体的结果。
有了建筑材料和蓝图,就可以开始建造房子了(运行分析)。施工结束后,要进行现场检查和质量检查,以确保安全。同样,我们需要记录分析项目的方法、结论和局限性。
1. 理解和规划
如果有人问我整个周期中最关键的阶段是什么,我会毫不犹豫地说理解和规划,因为数据科学和分析的主要目的不是用花哨的技术创建一个项目,而是解决实际问题。
因此,分析项目的成功在很大程度上取决于理解程度、对问题的定义以及将业务问题转化为分析问题的程度。从这个角度来看,花时间考虑分析项目更广泛的背景总是值得的。
2. 提出问题
通常一个分析项目从与合伙人的会议开始,你会与商业伙伴见面。他们将提供一些背景,并简要介绍需求,提出明智的问题能让你更好地理解客户的痛点和需求。
3. 分析计划
在深入分析之前,先制定一个分析计划,并安排另一个后续会议来回顾问题并强化预期。这个计划将提供一个高层次的计划概览,给出下一个步骤的清晰蓝图,并从业务方面指出技术行动和广阔蓝图之间的联系。以下是我分析计划中的一些关键元素:
不要让数据科学和技术变得晦涩难懂。试着用通俗的语言对这些方法进行简要描述,概述用例和场景,总结其优势和局限性。避免使用复杂的公式或函数,而是专注于该方法如何帮助解决问题。
完成一个分析项目可能需要几周时间,有时甚至更久。一个项目所花费的时间越长,某些变数对工作造成不利影响的可能性就越大。因此,项目开始之前,第一件事是分解完成项目必须要做的所有步骤。然后根据所需的大致时间来完成这些任务,并记录每个重大突破。
建议在项目的中间设置一些签入点,以便与涉众交流并获得他们的反馈,这样就可以进行及时的调整,而不只是做一个最后的演示。
如何组织项目并跟踪进度
1. 利用项目管理工具
当你在做一个复杂的分析项目,且需要与多个团队(如工程、产品和业务等)协作时,一个简单的待办事项列表或基于excel的跟踪器就无法满足需求了。
你可以利用专门的项目管理工具和软件。如果你用谷歌和简单的搜索项目管理工具会发现很多,比如Asana、Trello、JIRA、Monday.com等等。你可以根据团队规模和喜欢的工作方式找到合适的工具。
这个概念征服了我,因为它是一个集多个工作应用于一身的多功能工作区。为了不同的目的而拥有多种工具并不可取,所以可以想象,“多功能”是最有效的营销信息。对我来说,在一个地方做计划、跟踪、知识共享和写博客是一个很好的选择,它还提供了一些模板来帮助制定旅行计划以及跟踪求职进度。
图源:unsplash
2. 迭代策划会议( Sprints Planning)
一个强大的工具就像私人助理。那么如何保证合作,使项目运转起来?来谈谈迭代策划会议。
对于那些不熟悉sprint概念的人来说,迭代策划是一个短期的、有时间限制的时间段,这个时间段内,团队工作以完成一定数量的工作。迭代策划使项目更易于管理,允许团队更快、更频繁地交付高质量的工作,并使他们能够更灵活地适应变化。
进行迭代策划会议的首要任务是确定时限。尽管没有硬性规定每个sprint应该有多长时间,但它必须足够长才能确保任务能够完成,同时它也必须足够短,以便需求和目标保持不变。
在迭代策划会议上,整个团队将在接下来的迭代策划中调整目标,并计划有助于实现该目标的工作。这些任务将被逐条列出,按优先级排列,分配给团队成员,并记录到接下来的迭代策划董事会中。
3. 日常反馈
迭代策划会议是明确未来要实现的目标和交付的任务,以推动项目的进展,而每天5到10分钟的自由讨论会议将有助于使计划与执行保持一致。更具体地说,这是为了让团队保持一致,明确优先级,避免一些常见的阻碍因素。
简要来说,下面是每个人都会回答的三个基本问题:
- 你昨天做了什么?
- 你今天做什么?
- 是什么阻碍了你?
不要忽视记录和反思的重要性
我已经在数据分析、数据科学领域工作了六年多,多希望能在我开始职业生涯时就可以明白——记录和反思与分析本身同样重要。你做的所有的分析项目可能在简历中成为一个闪光点,并成为面试的话题,总结和框架分析工作一旦完成非常有利于发现新的天地,并巩固所有的内容和架构。
对你的分析进行记录和架构
你可以按照这个框架来处理情况、问题、解决方案和下一步行动(SPSN)。
首先,描述当前的状态和痛点,然后描述问题并指出这个项目的业务影响。
最关键的部分是解决方案,在该解决方案中,你将在较高的层次上概述这些方法,并逐步提供有关数据和分析的细节。然后将分析产生的结果、见解和可操作的建议记录下来。
请注意,没有完美的数据科学项目。开诚布公地谈论项目的注意事项和局限性,既要提出你的分析可以解决的问题,又要了解什么样的问题是不能回答的。
最后一部分是测试提高准确性的新方法,包括新的数据源,或者自动化整个过程,以使结果每天都显示出来等等。同时,不要忘了做自我反省,创建一个网格,把你在每个分析项目中遇到的一些例子和情况分成下面五个类别。
这一定能帮助你更顺利地实现整个过程的分析/数据科学项目!