我有大约 20 个分类变量来预测另一个分类变量。其中一个变量可以有多达 12000 个级别(O/P 将是 12000 个级别之一),另一个变量可以有大约 8000 个级别。休息将有少于 100 个级别。我首先想到的是随机森林,但是 Python 的随机森林实现不支持分类变量。如果我对所有这些变量进行一次热编码,那么我最终会得到数百万条记录的数千个变量,这将使我陷入内存问题。
我有哪些选择?
我有大约 20 个分类变量来预测另一个分类变量。其中一个变量可以有多达 12000 个级别(O/P 将是 12000 个级别之一),另一个变量可以有大约 8000 个级别。休息将有少于 100 个级别。我首先想到的是随机森林,但是 Python 的随机森林实现不支持分类变量。如果我对所有这些变量进行一次热编码,那么我最终会得到数百万条记录的数千个变量,这将使我陷入内存问题。
我有哪些选择?