组类别的内存高效编码逻辑

数据挖掘 机器学习 数据科学模型 编码 效率 分类编码
2022-02-13 17:26:08

我有一个包含分类数据的庞大数据集。它由具有多个属性的警报组成。每个警报属于一个组,有的甚至属于多个组。它看起来有点像这样:

     GroupID           System        State       TimeStamp        etc...
0    [1, 2, 3, 4]         A           REC           ...
1    [1, 2, 3, 4]         A           SNT           ...
2    [2, 4]               B           REC 
3    [2, 4]               B           PND
4    [2, 4]               B           COM
5    [2, 4]               B           SNT
6    [2]                  C           RCV
7    [2]                  C           ACC
...

在超过 300 万条警报中有超过 100000 个不同的组 ID。

  1. 创建具有单个组 ID 值(而不是列表)的列意味着一些警报将出现多次,鉴于数据集已经很大,这并不好。
  2. 为每个组创建一个单独的列(二进制编码)会使我的数据水平扩展太多。

什么是编码组的内存有效方式?

1个回答

有几种技术可以为您工作: