一个多世纪以前,政治经济学教授维弗雷多·帕累托发表了他对于社会财富分配的研究结果。他所观察到的严重的不平等,例如20%的人拥有80%的财富,令经济学家、社会学家和政治科学家感到惊讶。在过去的一个世纪中,不同领域的几位先驱者在包括商业在内的几种层面上观察到这种不成比例的分布。关键性的那部分少数的投入/原因(如20%的投入)直接影响了绝大多数的产出/效应(如80%的产出),此理论被称为帕累托法则——也称为80-20规则。
帕累托法则是一个非常简单但功能非常强大的管理工具。企业高管长期以来一直将其用于战略规划和决策。诸如20%的商店产生80%的收入,20%的软件错误导致80%的系统崩溃,20%的产品功能驱动80%的销售等,受到广泛欢迎,善于分析的企业尝试在他们自己的商业世界中找到这样的帕累托法则。通过这种方式,他们可以计划并确定其行动的优先顺序。事实上,今天,数据科学在筛选大量复杂数据,以助识别未来帕累托场景方面发挥着重要作用。
不仅数据科学有助于为企业预测新的帕累托场景,但站在数据科学本身的角度看,这一技术也可以从帕累托法则中受益。利用该法则可以使数据科学显著提高效率。在本文中,笔者将分享一些方法,作为数据科学家,我们可以利用帕累托法则的力量来指导我们的日常工作。
项目优先级排序
如果您是数据科学部门领导/经理,您不可避免地需要帮助为您的组织制定分析策略。虽然不同的业务领导者会提出各自不同的需求,但您必须阐明所有这些组织(或业务单位)需求,并为之制定路线图,确定优先级。一种简单的方法是量化解决每个分析需求所能获得的价值,并按值的递减顺序对它们进行排序。您经常会注意到,少部分的问题/用例拥有不成比例的价值(帕累托法则),应优先于其他问题/优先级。实际上,更好的方法是量化解决/实现每个问题/用例的复杂性,并基于价值和复杂性之间的权衡来优先考虑它们(例如,将它们放在x轴为复杂性,y轴为价值的坐标图上)。
问题范围
业务问题往往是模糊和非结构化的,数据科学家的工作需要确定正确的范围。范围界定通常需要将注意力集中在问题最重要的方面,并忽略那些价值较低的方面。首先,查看输出/效果在输入/原因上的分布将有助于我们了解问题空间中是否存在高级帕累托。随后,我们可以选择仅查看某些输入/输出或原因/结果。例如,如果20%的商店产生80%的销售额,我们可以将其余商店分组到一个集群中并进行分析而不是单独评估它们。
范围界定还涉及到对风险的评估——更深层次的评估通常会告诉我们,最重要的项目会带来更高的风险,而最底层的项目发生的可能性很小(帕累托法则)。我们可以将时间和精力放在一些主要风险上,而不是解决所有风险。
数据规划
复杂的业务问题需要的数据超出分析数据集中可用的数据。我们需要请求访问、购买、获取、抓取、解析、处理和集成来自内部/外部源的数据。它们具有不同的形状、大小、健康状态、复杂性、成本等。等待整个数据计划落实到位,可能会导致项目的延迟不受我们控制。有一种简单的方法是,根据这些数据对最终解决方案的价值,对这些数据需求进行分类,例如绝对必须拥有、有好处和可选的(帕累托法则)。这将帮助我们专注于绝对必须拥有的东西,而不是被可选的东西分心或拖延。除了价值之外,考虑数据获取的成本、时间和精力方面的因素将帮助我们更好地对数据规划工作进行优先级排序。
分析
有种说法是,一名工匠只用20%的工具就能完成80%的工作。这也适用于我们的数据科学家。我们倾向于使用很少的分析和模型来完成我们工作的重要部分(帕累托法则),而其他技术的使用频率则要低得多。探索性分析中的典型示例包括变量分布、异常检测、缺失值插补、相关矩阵等。类似地,建模阶段的示例包括k折交叉验证,实际VS预测图,错误分类表,超参数调整分析等构建使用/访问/实施这些分析的微型自动化(例如库,代码片段,可执行文件,UI)可以在分析过程中带来显著的效率。
建模
在建模阶段,我们不需要很长时间就可以在过程的早期找到一个合理的工作模型。而且到目前为止,大部分提高精度的工作就已经完成了(帕累托法则)。剩下的过程是对模型进行微调,并增加精度。有时,为了使解决方案对业务可行,需要进一步增加精确度。在其他情况下,模型微调对最终的洞察/主张没有多大价值。作为数据科学家,我们需要认识到这些情况,这样我们就知道该在哪里相应地划定界限。
业务沟通
今天的数据科学生态系统是多学科的。项目团队可能包括业务分析师、机器学习科学家、大数据工程师、软件开发人员和多个业务相关人员。这样的团队成功的一个关键驱动力是沟通。作为一个努力工作的人,你可能会需要沟通所有的工作——挑战、分析、模型、见解等等。然而,在当今信息过载的世界里,采取这样的方法将无济于事。我们需要认识到“有用的多但重要的少”(帕累托法则),并利用这一认识来简化我们交流的信息量。同样,我们呈现和突出的信息需要根据目标受众(业务涉众vs数据科学家)进行定制。
帕累托法则与我们而言是一个强大的工具,以正确的方式使用,可以帮助我们整理和优化我们的工作。