我有一个包含 A 和 B 的多元数据集。我想看看 A 和 B 样本之间是否存在差异。我目前对如何做到这一点有两个想法,但我不确定它们是否有效。
在 A 的样本上训练模型并在 B 的样本上单独训练模型并比较回归系数。
用 A 的样本训练模型,比较 A 的保留样本和 B 的所有样本的误差,看看误差在哪里不同。
第一个解决方案背后的思考过程是,如果两个数据集相似,则计算出的回归系数也将相似。我对第二个解决方案的想法是,如果两个数据集足够相似,那么在 A 上训练的模型应该可以相对较好地预测 B。然后我可以进行一些统计测试,确认 B 的误差与保留值没有显着差异A的
这种思路有意义吗?系数和误差的差异是否意味着数据集的差异?我觉得这是不可行的,因为我无法在任何地方找到这样的例子。