我可以比较在不同但相似的数据集上训练的两个模型,以帮助找出两个数据集之间的差异吗?

数据挖掘 机器学习 回归 统计数据 方法
2022-02-18 10:52:06

我有一个包含 A 和 B 的多元数据集。我想看看 A 和 B 样本之间是否存在差异。我目前对如何做到这一点有两个想法,但我不确定它们是否有效。

  1. 在 A 的样本上训练模型并在 B 的样本上单独训练模型并比较回归系数。

  2. 用 A 的样本训练模型,比较 A 的保留样本和 B 的所有样本的误差,看看误差在哪里不同。

第一个解决方案背后的思考过程是,如果两个数据集相似,则计算出的回归系数也将相似。我对第二个解决方案的想法是,如果两个数据集足够相似,那么在 A 上训练的模型应该可以相对较好地预测 B。然后我可以进行一些统计测试,确认 B 的误差与保留值没有显着差异A的

这种思路有意义吗?系数和误差的差异是否意味着数据集的差异?我觉得这是不可行的,因为我无法在任何地方找到这样的例子。

1个回答

您不需要形成回归方程然后检查系数。相反,您应该执行以下操作:

检查数据是否正态分布:

  1. 如果它是正态分布的,那么您可以运行 t 检验。这将告诉您两组之间的差异是否具有统计学意义。

  2. 如果分布不正常,那么您可以尝试非参数检验,例如:Kolmogorov-Smirnov 检验或 Mann-Whitney U 检验。

所有这些测试都可以在R. 它们也应该可用python