我正在尝试使用 sklearn 中的隔离森林 (IF) 进行异常检测。除了它是一种很好的异常检测方法之外,我还想使用它,因为我大约一半的特征是分类的(字体名称等)
使用一种热编码(大约 1000+,这只是众多功能之一)有点太多了,而且我无论如何都在寻找一种更强大的数据表示方式。
另外,我想稍后尝试其他聚类技术,所以我不想一定要进行标签编码,因为它会歪曲欧几里得空间中的数据。
因此,我有一个两部分的问题:
标签编码(即序数)将如何影响基于树的方法,例如隔离森林?鉴于它们不是基于距离的,它们不应该对序数数据做出假设,对吧?
对于基于距离的模型,我可以考虑哪些其他特征转换?