假设我们有一个数据集,其中每一行的受访者(N受访者)和他们各自的特征作为列(C特征)。每个受访者还有一个weight.
如果受访者数量众多,删除重复的受访者并将他们weight的 s 相加是一个好主意吗?这会导致不同的结果吗?
所以我的初始数据看起来像这样
> dt
id weight v1 v2
1: 1 10 2 4
2: 2 11 2 4
3: 3 12 2 4
4: 4 13 3 5
5: 5 14 3 5
6: 6 15 3 5
而且由于受访者1,2,3是相同的,并且受访者4,5,6是相同的,我最终会得到这个
> dt
id weight v1 v2
1: 1 33 2 4
2: 2 42 3 5