我如何知道我的数据集是否已准备好用于机器学习模型?

人工智能 神经网络 机器学习 数据集 数据科学 数据挖掘
2021-10-27 07:50:52

我是机器学习和神经网络领域的新手。目前,我正在上一些关于 Udemy 的课程并阅读一本关于它的书,但我仍然有一个关于数据预处理的大问题。

在 Udemy 的所有课程中,人们总是使用完美的数据集并准备好输入模型。所以你所要做的就是运行它。

我如何知道我的数据集是否已准备好用于模型? 我需要做些什么来准备好它?哪些评价?

我已经在大学上过一些统计课,我学到了很多关于相关矩阵、自相关函数及其滞后等方面的知识,而且我还没有在任何地方看到有人解释如何评估我的数据,然后继续实施模型来解决我的问题。

如果有人能给我指个方向,给我一些材料,告诉我在哪里可以学习这个,任何东西,这将非常有帮助!

1个回答

在开始建模之前,数据科学家(或 ML/AI 从业者)必须完成一些任务:

  1. 构思(或假设):在应用任何建模方法之前,我们需要提出正确的问题。我们必须清楚地提及我们的假设并声明我们希望如何衡量管道的有效性。请注意,某些工具/算法可能不适合所做的假设,或者可能无法在定义的指标中产生最佳值。因此,管道的设计方式必须符合回答定义问题的目的。
  2. 数据清理:现实世界的数据集通常不干净。它们有各种各样的数据问题,例如缺失值、重复、异常值、错误测量、碎片、不一致等。大多数 ML 技术对这些问题敏感(当然在不同程度上)。因此,在进行任何建模之前,应清理数据。
  3. 数据整理(或特征工程):在许多情况下,收集到的数据(甚至清理过的数据)并不立即适用于任何建模/分析。例如,我们可能需要将文本语料库的文档转换为数字向量(通过 TF-IDF 或嵌入技术),然后才能应用文本分类器,因为我们的分类器只接受数字数据。将测量值转换为其他单位,将地址分解为其组件,将时间和日期转换为不同的格式或时区只是数据整理任务的几个示例(在更广泛的背景下,特征工程也可能指降维或特征选择/投影) .
  4. 探索性数据分析 (EDA):为了进行清理、理解数据集特征和构思,我们经常需要使用可视化(例如,仪表板和图表)或汇总统计工具来探索给定的数据集。

免责声明:我与 Udemy 没有商业利益。这些链接只是共享的,因为@pedro-de-sá 提到他们从 Udemy 学习了一些课程。