当我们没有标签时,隔离森林在处理异常值/异常检测时被广泛使用。背后的理论是,在随机点进行随机拆分并计算您为隔离特征而进行的拆分次数将帮助您确定实例是否为异常值。
我有分类特征,我不知道如何处理它们:
- 标签编码:会歪曲欧几里得空间中的数据。
- 一个热编码:会给我更多的特性,并且由于源代码首先选择列然后是值,它会给我的算法一个不现实的概率来选择一个热编码
- 目标编码不起作用,因为我们没有目标
如何正确编码隔离森林中的分类特征? 我们能否在适合算法的空间中编码分类特征
当我们没有标签时,隔离森林在处理异常值/异常检测时被广泛使用。背后的理论是,在随机点进行随机拆分并计算您为隔离特征而进行的拆分次数将帮助您确定实例是否为异常值。
我有分类特征,我不知道如何处理它们:
如何正确编码隔离森林中的分类特征? 我们能否在适合算法的空间中编码分类特征