我有一个包含分类数据的庞大数据集。它由具有多个属性的警报组成。每个警报属于一个组,有的甚至属于多个组。它看起来有点像这样:
GroupID System State TimeStamp etc...
0 [1, 2, 3, 4] A REC ...
1 [1, 2, 3, 4] A SNT ...
2 [2, 4] B REC
3 [2, 4] B PND
4 [2, 4] B COM
5 [2, 4] B SNT
6 [2] C RCV
7 [2] C ACC
...
在超过 300 万条警报中有超过 100000 个不同的组 ID。
- 创建具有单个组 ID 值(而不是列表)的列意味着一些警报将出现多次,鉴于数据集已经很大,这并不好。
- 为每个组创建一个单独的列(二进制编码)会使我的数据水平扩展太多。
什么是编码组的内存有效方式?