数据挖掘 - 在隔离森林中处理分类变量 - 吾爱随笔录 - 问答

在隔离森林中处理分类变量

数据挖掘机器学习决策树无监督学习分类数据隔离森林

2022-02-19 22:05:43

当我们没有标签时，隔离森林在处理异常值/异常检测时被广泛使用。背后的理论是，在随机点进行随机拆分并计算您为隔离特征而进行的拆分次数将帮助您确定实例是否为异常值。

我有分类特征，我不知道如何处理它们：

标签编码：会歪曲欧几里得空间中的数据。
一个热编码：会给我更多的特性，并且由于源代码首先选择列然后是值，它会给我的算法一个不现实的概率来选择一个热编码
目标编码不起作用，因为我们没有目标

如何正确编码隔离森林中的分类特征？ 我们能否在适合算法的空间中编码分类特征

0个回答

没有发现任何回复~

其它你可能感兴趣的问题

上一篇如何使用 sklean 管道处理逐行读取的数据下一篇如何计算 R 中每天的事件，包括没有事件发生的日期？