如果有这样的网站,为什么我们需要数据科学家?

数据挖掘 可视化
2021-10-09 13:10:35

关于数据科学的非常基本的问题,因为我是初学者。我注意到有一些如下图所示的网站,可以帮助可视化和分析数据,以便企业主更好地了解他们的业务。

我的问题是,如果有这样的网站,为什么需要数据科学家?他们能提供什么网站不能提供的东西?

在此处输入图像描述

4个回答

如果不完全了解该网站上的功能,我会说:

  • 根据CRISP-DM,数据可视化只是数据科学家 (ds) 管道的一部分,从数据理解思想模型验证和模型生产开始,该网站似乎只关注该可视化部分。

  • 数据科学入门课程大部分时间使用“即用型”数据框架(鸢尾花、泰坦尼克号),这些框架不能反映数据必须预处理和聚合到正确级别的真实方式(例如,您可能有帐户级别需要聚合到用户级别以预测用户默认值的数据)此外,在许多情况下,您有多个数据源存储在各种位置,例如需要事先查询和连接的关系表或非结构化信息。

后一个角色通常被称为“数据工程师”,但是在中小型项目中,这两个角色之间的界限不太明显。然而,重要的是要注意,这条线应该是模糊的,因为数据科学家所做的选择往往需要从数据工程的角度进行工作——正如下面的其他答案所涉及的那样。

这给人一种任务简单的错误印象。

此外,上述步骤需要您至少对正在处理的数据有基本的了解,以便创建“有意义的”功能,否则这些功能将仅通过按最小值、最大值和平均值进行聚合来结束(有时有用但还不够)

  • 最后,如果您不能以完全部署的方式使用该模型(例如,具有 AWS lambda),那么笔记本中经过训练的模型几乎不会有帮助

这是一个公平的问题,现在比以往任何时候都更多地使用 Datarobot 等工具......除了 Julio Jesus 的回答之外,关于数据集构建步骤的要点是最重要的步骤之一,而且耗时,其他一些相关的要点是:

  • 为您的模型选择正确的评估指标对于正确解释您的模型至关重要,这也取决于您的具体用例

  • 不仅选择正确的预定义指标,而且有时您甚至必须创建自定义指标以用于模型训练

  • 标记过程:对每个样本进行自信的标记非常重要(在进行监督学习时),而且通常并不简单

  • 具体的业务案例数据清理和处理,考虑到并非所有类型的基本过滤方法都可以自动应用,缺失值的基本插补策略可能不足以(从数据质量的角度)获得真正的用例意义。关于这一点的一个很好的参考是 Andrew NG 最近的一条推文,其中提到了 François Chollet 关于这个主题的另一条推文。

  • 同样关于数据可视化,这些工具通常提供有限的预定义选项列表,如果您作为数据分析师/科学家/任何专业知识,知道如何对其进行编码、解释和解释,则可以更灵活地扩展这些选项

为已经提出的好的答案添加几点:

一般来说,这类网站只能提出适用于标准数据的标准方法。这可能非常有用,但它只涵盖了数据科学解决的众多问题中的一小部分。

从广义上讲,数据科学几乎可以应用在所有可以想象的领域(例如医学、天文学、自动驾驶汽车、机器翻译……)和每一种可能的数字数据(例如文本、语音、图像、视频…… .)。此类网站的范围仅限于一个域,通常使用标准业务数据解决标准业务问题。只需在 DataScienceSE 上浏览几个问题,就很容易看出这个世界充满了非标准问题。

我的工作是预测零售额,例如在促销、价格变化、星期几、日历事件、季节性和大量其他驱动因素的情况下预测特定库存单位下周的销售额。(我曾经告诉我的孩子,爸爸确保超市里总是有足够的冰淇淋。)

通常,零售商会想知道为什么某个特定的预测会偏离。为什么促销预测如此糟糕,或者圣诞节销售预测如此之多?要回答这个问题并改进未来的预测(因此我们不会有太多的产品堵塞货架,或者在易腐烂的情况下变质,或者太少的产品和不满意的客户),您需要了解数据,以及模型,并了解模型是否可以改进。或者您可能需要帮助客户了解该模型已尽其所能,并且存在大量剩余变化。在这种情况下,问题就变成了如何最好地处理这种剩余变化,通过使用更高安全性的库存,或有意识地允许缺货。至此,业务逻辑进入。

此外,当我们有一家新零售商推出我们的预测产品时,我们需要将他们的促销环境映射到我们的模型中。零售商可以有相当复杂的促销活动(购买n 产品单位 XmY,那么你得到 p 单位 Zx% 关闭,并且 y 您的购物卡上的奖励积分,以及 z航空里程...)。同样,您需要在这里理解人工智能还没有完全实现。

相关,虽然是封闭的:没有特定主题知识的数据科学,是否值得作为职业追求?我在那里的回答集中在与数据科学家进行沟通和业务理解的必要性上,而这两者都是网站无法提供的。