机器学习算法中缺失数据和稀疏数据的区别

机器算法验证 机器学习 数据集 缺失数据
2022-02-09 12:19:55

稀疏数据和缺失数据之间的主要区别是什么?它如何影响机器学习?更具体地说,稀疏数据和缺失数据对分类算法和回归(预测数字)类型的算法有什么影响。我说的是一种情况,其中丢失数据的百分比很大,我们不能删除包含丢失数据的行。

1个回答

为了便于理解,我将用一个例子来描述这一点。假设您正在从具有 12 个传感器的设备收集数据。你已经收集了 10 天的数据。

您收集的数据如下: 在此处输入图像描述

这称为稀疏数据,因为大多数传感器输出为零。这意味着这些传感器工作正常,但实际读数为零。尽管该矩阵具有高维数据(12 轴),但可以说它包含的信息较少。

假设您设备的 2 个传感器出现故障。
然后您的数据将如下所示:在此处输入图像描述

在这种情况下,您可以看到无法使用 Sensor1 和 Sensor6 中的数据。要么您必须在不影响结果的情况下手动填充数据,要么您必须重做实验。