示例之间的相关性

数据挖掘 机器学习 分类 神经网络 相关性
2021-09-17 17:34:03

我正在训练用于模式识别的神经网络。我有一个大小示例矩阵(NX4) 和N例子和4变量。

当我训练网络时,用于训练的示例数量与交叉熵相比,网络的性能在添加新示例时并没有提高。

我怀疑这些示例在它们之间高度相关,并且添加新示例不会为网络提供新信息,但我不知道如何衡量这种相关性。

矩阵的每一行都可以被标记Xi. 假设均值为零,则示例之间的协方差矩阵为Rij=E[XiXjT]. 我还可以计算协方差矩阵X,其元素为Rij但在那种情况下,我会有一个矩阵300000X300000.

有没有办法计算示例之间的一些平均相关性或其他相关性度量?

谢谢。

编辑:我不想知道变量的相关矩阵,我想知道示例之间的相关性。

EDIT2:这是学习曲线:

在此处输入图像描述

1个回答

当我训练网络时,用于训练的示例数量与交叉熵相比,网络的性能在添加新示例时并没有提高。

您假设改进新样本将始终提高性能。在许多情况下,情况并非如此。您是否绘制了一条学习曲线,以了解随着样本数量的增加,性能如何提高?在深入研究样本相关性之前,您可能应该尝试这样做。