我有两个关于受试者心率的数据集,这些数据集记录在两个不同的地方(确切地说是两个不同的大陆)。这两项研究实验旨在根据受试者的心率随时间变化的程度来找出受试者的情绪。我正在使用机器学习来预测受试者的情绪,并且在对每个数据集进行单独测试时,我得到了可接受的结果。但是,如果我合并两个数据集,我会得到更好的结果。
但是,我不确定合并这两个数据集是否可以接受。当我组合两个不同的数据集时,它会产生统计偏差吗?我应该如何在期刊论文中报告我的发现?
我有两个关于受试者心率的数据集,这些数据集记录在两个不同的地方(确切地说是两个不同的大陆)。这两项研究实验旨在根据受试者的心率随时间变化的程度来找出受试者的情绪。我正在使用机器学习来预测受试者的情绪,并且在对每个数据集进行单独测试时,我得到了可接受的结果。但是,如果我合并两个数据集,我会得到更好的结果。
但是,我不确定合并这两个数据集是否可以接受。当我组合两个不同的数据集时,它会产生统计偏差吗?我应该如何在期刊论文中报告我的发现?
添加到@Super_John 所说的内容,如果将大洲添加为功能,那么您也可能至少还可以拥有2
更多功能,
还添加另一个临时列以指示Source
(如 到 df, 到 df 等),这样我们就可以将颜色添加到 k-means
所以现在我们可以有一个k-means
集群来查看值是否重叠......(尝试以无监督的方式查看它)
(类比相当于您可以以循环方式对时间(一天 24 小时)进行聚类,例如绘图 , 然后尝试将它们聚类)
看看这个答案, 特征选择,提取
虽然通常在训练机器学习模型时,你拥有的数据越多对训练泛化模型越好,但这里可能并非如此。
鉴于这两个数据集是在完全不同的环境中收集的,它们可能具有完全不同的分布。在这种情况下,在组合数据集上训练模型甚至可能会降低模型的性能。
我的建议是,独立地对每个数据集进行一些统计分析——例如找出每个数据集的每个变量的均值和方差,然后进行比较。如果分析表明这两个数据集具有非常相似的分布(我将把非常相似的定义留给你),那么结合这两个数据集来训练一个模型应该是可以的。
如果您添加“大陆”或“位置”作为模型的特征,那么您将能够在获得附加数据的结果时控制潜在的偏差。
是的,通常使用 ML,您拥有的数据越多,结果越好!当然,混合来自不同人群的数据是有风险的,但如果它有效,那么你就走在了正确的道路上。
使用更多数据有助于在模型训练期间进行泛化。因此,如果您能够在两个总体中的样本上测试您的模型并获得良好的结果,那么您就可以做到。