数据挖掘 - 具有大部分零值数据的多类分类 - 吾爱随笔录

数据挖掘机器学习正常化

2022-03-07 20:45:44

我实现了一个多类分类，并想使用 MNIST 数据集对其进行测试。我意识到如果我使用标准化

$X \leftarrow \frac{X-mean(X)}{std(X)}$ ,

超过 50% 的特征将为零。那是问题吗？

在这种情况下进行标准化工作是否更有意义

$X \leftarrow \frac{2(X-min(X))}{max(X) - min(X)} - 1$ ,

这样所有特征都在-1和1之间？

首先进行标准化然后进行标准化步骤怎么样？

2个回答

这只是词汇，但标准化是一种特定的规范化。因此，您正在比较两种不同的归一化。

通过标准化，平均特征将为零。如果特征的分布是对称的，比如平均值为 100 的正态分布，或者其他什么，那么在标准化之后，这个特征的 2/3 的值将小于 1。

现在关于最小-最大归一化。想象一下，你的原始特征值从 0 到 10，但几乎总是 0。然后在这个归一化之后，对于大多数示例，这个特征的值将是 -1（对应于最小值）。

这些都不是问题，尽管原则上它取决于必须理解这些输入的算法。

欢迎！听起来您的数据集高度不平衡。有关处理不平衡数据集的技术，请查看此。https://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/

编辑：看起来我误解了这个问题，对不起！另外：我认为“多类回归”一词不存在。听起来您更像是在进行多类分类。如果您的输入特征始终为 0，那么听起来您的每个特征的实际值和特征的平均值是相同的，在这种情况下，您的特征很差。这些功能无法很好地区分类别。您应该尝试（或希望使用神经网络来学习）一组新功能。

其它你可能感兴趣的问题