数据挖掘 - 分类变量数组与单热编码 - 吾爱随笔录

我有一些 JSON 数据要转换为机器学习友好的格式。我的数据中的每个对象，最终将成为我的数据集中的一个实例，都具有完全相同的字段（在本例中foo为bar和array）。该array字段包含可变数量的子对象（从 0 到 10）。这些子对象中的每一个都有一个范围很大的分类字段和一些可以安全忽略的其他字段。这些子对象中的所有分类字段都属于同一个范围。

示例（大量简化的对象）：

{
"foo": 1
"bar": 0.5
"array" : [
    {
        "categorical": "Lorem"
        "other": 34
        "stuff": 56
    },
    {
        "categorical": "Ipsum"
        "other": 53
        "stuff": 12
    },
    {
        "categorical": "Dolore"
        "other": 6
        "stuff": 101
    }
]
}

显然foo并且bar很容易表示为数字属性。我现在想将此数组 ( array) 表示为一个大的单热（或多热）向量。假设我不关心子对象的任何其他字段，除了类别字段categorical，这是我的问题：

问题

在一个单热向量中设置多个位（我假设这将使它成为一个多热向量）来表示此实例中存在的所有类别是否有效且可能？如果没有，怎么可能做到？