数据挖掘 - 如果删除重复的行并将它们的权重相加，结果会改变吗？ - 吾爱随笔录

数据挖掘机器学习回归数据清理

2022-03-11 02:57:00

假设我们有一个数据集，其中每一行的受访者（N受访者）和他们各自的特征作为列（C特征）。每个受访者还有一个weight.

如果受访者数量众多，删除重复的受访者并将他们weight的 s 相加是一个好主意吗？这会导致不同的结果吗？

所以我的初始数据看起来像这样

> dt
   id weight v1 v2
1:  1     10  2  4
2:  2     11  2  4
3:  3     12  2  4
4:  4     13  3  5
5:  5     14  3  5
6:  6     15  3  5

而且由于受访者1,2,3是相同的，并且受访者4,5,6是相同的，我最终会得到这个

> dt
   id weight v1 v2
1:  1     33  2  4
2:  2     42  3  5

1个回答

对于加权线性回归，它完全相同，因为损失函数的表达式是权重之和乘以预测中的误差。当然，这适用于其他具有损失函数的方法，例如逻辑回归和神经网络。这是因为损失函数相对于权重是线性的。当您节省内存时，这是完全值得推荐的。

对于其他方法，您应该检查选择参数或方法的标准是否与权重呈线性关系。如果不是，你不应该这样做（对我来说，方法与权重非线性是没有意义的，但可能会发生这种情况）。

其它你可能感兴趣的问题