应对数据科学项目中 80/20 困境的策略有哪些?

数据挖掘 项目计划 管理
2022-03-12 03:07:35

数据科学项目中的大部分时间不是花在(执行)实际分析上,而是花在其他任务上,例如组织数据源、收集样本和准备数据集、编译和验证数据中的业务规则等。这个事实已经过研究作为数据科学项目中的 80/20 困境

在此处输入图像描述

为了解决这个难题,我想问一下哪些策略可以减少其他阶段(组织数据源、收集样本和准备数据集、编译和验证数据中的业务规则)的 80% 时间

1个回答

其中一些痛点是不可避免的。我们是数据科学家,我们需要大量干净、相关的数据,而外部来源通常不会直接交出这些数据。您团队中的某个人将不得不进行收集、整理、清洁等工作。那么问题是,我们如何使其尽可能轻松?

了解你的人。你大概有一个团队,我敢肯定其中的一些人喜欢事物的分析方面,而另一些人则更喜欢数据工程。从热情和技能的角度确定谁最适合并相应地委派。如果你错过了这一步,工作可能会完成,但与人们对他们正在解决的问题充满热情的环境相比,它会非常缓慢。

了解你的工具。您正在处理多少数据?如果它足够小以适合您机器上的工作内存并且只需运行一些 Python/R 脚本,那么就这样做。当一个简单的解决方案就可以完成时,无需花哨。只需确保预测未来并验证您的解决方案不需要显着扩展。如果您正在处理非常大的数据集或无法在本地机器上很好地运行的流数据,那么请研究在 Spark 集群上运行的 Scala/Java 等技术。

了解您的流程。识别多余的任务并尽可能多地删除它们。数据科学是一个迭代过程,你花在重复上的时间越少,你就越能专注于实际分析。这意味着无需重新清理数据、使用更多数据更新现有模型而不是重新训练等。