给新数据科学家的提示

数据挖掘 初学者
2021-09-21 08:14:38

我即将开始一份工作,我将使用大型数据集,并有望找到趋势等......我找到了很多关于在哪里学习 ML 和其他硬技能的资源,我觉得我是(半) 在这方面有能力。

我很想知道是否有对数据科学家有用的特定软技能。 您希望一开始就知道哪些事情?

虽然 Kaggle 在学习时非常有用,但它也提出了明确的目标。 你如何处理得到一个数据集,但没有明确的目标?

让我知道这是否过于宽泛,我可以想到更具体的问题。

2个回答

我认为在数据科学领域有很多重要的软技能需要考虑。

这里是其中的一些:

  1. 知道目标是什么,花大量时间在数据争论、模型、可视化和报告上,而不是为了特定的目标是浪费。与技术含量较低的人交流本身就是一种技能。
  2. 与产品负责人反复迭代。继续确保您走在正确的道路上。
  3. 如果数据没有说明他们认为/想要告诉他们的故事,那么情况并非如此,请清楚为什么会发生这种情况,哪些偏见可能会起作用等等。不要应用各种过滤器或不断更改参数以获得所需的结果。

关于你的第二个问题:

目标必须要么明确地从产品所有者那里获得,要么来自数学较少的目标。例如,您需要根据某些特征预测火车到站。他们希望模型在 10 分钟的误差范围内尽可能多地进行预测。这是比较明确的。

有时它并不那么清楚,他们可能会说我们需要它尽可能准确。然后您必须决定要优化什么,在某些情况下,这只会最小化 MSE,但在其他情况下,其他事情可能对您的情况更有意义。通常,从隐含的目标中可以清楚地看到这一点,并且通过更多经验您会变得更好。隐含和明确的目标都源于与产品所有者的清晰沟通。

“你如何处理得到一个数据集,但没有明确的目标?”

这将很常见。

除了上述建议外,了解您所从事的业务以及您的直接客户的目标至关重要。通常,您需要了解使他们比他们更好地转向数据的具体问题。向您的内部或外部客户提供数据和不明确的目标是非常常见的 - 通常您的任务是提供可以通过数据实现的目标并解决客户的实际业务问题。需要进行大量横向思考才能使数据结果与业务解决方案相匹配。

我将以上内容总结为“定义目标太重要(而且可能太难了!)而不能留给客户(单独)”。

在机器学习环境中,CRISP-DM 是一种尝试通过循环迭代来解决此问题的方法,以便在与客户讨论时可以使用额外的数据理解来更好地理解原始问题。因此,例如,他们可能会陈述一个定义不明确的目标,在你完成一些 EDA 之后的第二次讨论会使它变得更加尖锐。当您稍后生成运行良好但目标不完全正确的模型时,您将再次接近真正的业务目标。

换句话说,不要被任务的模糊性所困扰。预计会遇到真空,并将其填充到您的优势。

这是一个轻微的横向转变,但是 6 sigma 方法试图在 DMAIC 系统的不同背景下解决这个问题(“D”代表“定义”,就“客户的声音”而言),所以它是很可能在 6 sigma 环境的资源中可以收集到一些技巧(例如,您可以与客户一起做的练习,帮助他们更清楚地表达您想要的东西)