我有一个包含连续变量和分类变量的数据。我正在使用随机森林,并通过转换使我的连续变量高斯并对其进行了标准化。分类变量应该做同样的事情吗?
分类变量的转换
数据挖掘
随机森林
分类数据
2022-03-04 13:06:49
3个回答
如果您的随机森林算法接受,您可以将它们转换为因子。通常不建议使用分类变量 这是一篇文章提供了有关随机森林中分类变量的信息
Afaik,一旦你处理了分类变量,你最终会得到几列,其中的值要么是真/假(或 0/1)。所以,我看不出将它们设为高斯会有什么帮助。
还有另一种处理分类变量的方法,称为目标/影响编码。
在这个方案中,想法是使用单个浮点列对特征进行编码,其中值是目标变量在共享该类别的所有行上的平均值。这对于基于树的模型特别有用,因为它在特征中强加了顺序关系(即类别右侧的值比左侧的值具有更高的平均响应),并且更容易划分预测空间。
这是对该主题的一个很好的解释:
https
://towardsdatascience.com/why-you-should-try-mean-encoding-17057262cd0
这是最初提出编码的论文的链接:http: //helios.mm。 di.uoa.gr/~rouvas/ssi/sigkdd/sigkdd.vol3.1/barreca.pdf
有更多细节可以避免估计低计数类别的平均值,还有另一个模型 CatBoost 提出了一种解决这种编码引入的偏差的方法,但根据我的经验,这是一种编码高基数分类变量的简单且非常有用的方法.