在隔离森林中处理分类变量

数据挖掘 机器学习 决策树 无监督学习 分类数据 隔离森林
2022-02-19 22:05:43

当我们没有标签时,隔离森林在处理异常值/异常检测时被广泛使用。背后的理论是,在随机点进行随机拆分并计算您为隔离特征而进行的拆分次数将帮助您确定实例是否为异常值。

我有分类特征,我不知道如何处理它们:

  • 标签编码:会歪曲欧几里得空间中的数据。
  • 一个热编码:会给我更多的特性,并且由于源代码首先选择列然后是值,它会给我的算法一个不现实的概率来选择一个热编码
  • 目标编码不起作用,因为我们没有目标

如何正确编码隔离森林中的分类特征? 我们能否在适合算法的空间中编码分类特征

0个回答
没有发现任何回复~