我实现了一个多类分类,并想使用 MNIST 数据集对其进行测试。我意识到如果我使用标准化
,
超过 50% 的特征将为零。那是问题吗?
在这种情况下进行标准化工作是否更有意义
,
这样所有特征都在-1和1之间?
首先进行标准化然后进行标准化步骤怎么样?
我实现了一个多类分类,并想使用 MNIST 数据集对其进行测试。我意识到如果我使用标准化
,
超过 50% 的特征将为零。那是问题吗?
在这种情况下进行标准化工作是否更有意义
,
这样所有特征都在-1和1之间?
首先进行标准化然后进行标准化步骤怎么样?
这只是词汇,但标准化是一种特定的规范化。因此,您正在比较两种不同的归一化。
通过标准化,平均特征将为零。如果特征的分布是对称的,比如平均值为 100 的正态分布,或者其他什么,那么在标准化之后,这个特征的 2/3 的值将小于 1。
现在关于最小-最大归一化。想象一下,你的原始特征值从 0 到 10,但几乎总是 0。然后在这个归一化之后,对于大多数示例,这个特征的值将是 -1(对应于最小值)。
这些都不是问题,尽管原则上它取决于必须理解这些输入的算法。
欢迎!听起来您的数据集高度不平衡。有关处理不平衡数据集的技术,请查看此。https://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/
编辑:看起来我误解了这个问题,对不起!另外:我认为“多类回归”一词不存在。听起来您更像是在进行多类分类。如果您的输入特征始终为 0,那么听起来您的每个特征的实际值和特征的平均值是相同的,在这种情况下,您的特征很差。这些功能无法很好地区分类别。您应该尝试(或希望使用神经网络来学习)一组新功能。