如果删除重复的行并将它们的权重相加,结果会改变吗?

数据挖掘 机器学习 回归 数据清理
2022-03-11 02:57:00

假设我们有一个数据集,其中每一行的受访者(N受访者)和他们各自的特征作为列(C特征)。每个受访者还有一个weight.

如果受访者数量众多,删除重复的受访者并将他们weight的 s 相加是一个好主意吗?这会导致不同的结果吗?

所以我的初始数据看起来像这样

> dt
   id weight v1 v2
1:  1     10  2  4
2:  2     11  2  4
3:  3     12  2  4
4:  4     13  3  5
5:  5     14  3  5
6:  6     15  3  5

而且由于受访者1,2,3是相同的,并且受访者4,5,6是相同的,我最终会得到这个

> dt
   id weight v1 v2
1:  1     33  2  4
2:  2     42  3  5
1个回答

对于加权线性回归,它完全相同,因为损失函数的表达式是权重之和乘以预测中的误差。当然,这适用于其他具有损失函数的方法,例如逻辑回归和神经网络。这是因为损失函数相对于权重是线性的。当您节省内存时,这是完全值得推荐的。

对于其他方法,您应该检查选择参数或方法的标准是否与权重呈线性关系。如果不是,你不应该这样做(对我来说,方法与权重非线性是没有意义的,但可能会发生这种情况)。