数据挖掘 - 组类别的内存高效编码逻辑 - 吾爱随笔录

我有一个包含分类数据的庞大数据集。它由具有多个属性的警报组成。每个警报属于一个组，有的甚至属于多个组。它看起来有点像这样：

     GroupID           System        State       TimeStamp        etc...
0    [1, 2, 3, 4]         A           REC           ...
1    [1, 2, 3, 4]         A           SNT           ...
2    [2, 4]               B           REC 
3    [2, 4]               B           PND
4    [2, 4]               B           COM
5    [2, 4]               B           SNT
6    [2]                  C           RCV
7    [2]                  C           ACC
...

在超过 300 万条警报中有超过 100000 个不同的组 ID。

创建具有单个组 ID 值（而不是列表）的列意味着一些警报将出现多次，鉴于数据集已经很大，这并不好。
为每个组创建一个单独的列（二进制编码）会使我的数据水平扩展太多。

什么是编码组的内存有效方式？