我有一个问题,到目前为止我无法在搜索中找到任何答案。
背景
我正在研究使用自动编码器的机器上的异常检测问题。我正在为每台机器构建一个模型文件,因为机器的时间行为变化很大。
我有5个特点:
- 介于 0 和 x 之间的数字整数(x 因机器而异)
- 其他 4 个特性是分类的(在尝试了 LabelEncoding 之后,我的架构更喜欢 One-Hot 编码)
我尝试使用归一化(MinMaxScaler 和 StandardScaler)来缩放数值特征,但这根本没有产生很好的结果。
作为缩放输入的替代方法 - 我决定使用 scikit 的 MinMaxScaler 来缩放输出。这样我就可以有 1 个通用阈值,我可以将其应用于不同的模型来识别异常。
尽管到目前为止这已经产生了最好的结果 - 在实践中,输出变得过于两极分化为 0 或 1,因此我错过了我不应该的异常值。
问题
我可以在我的自动编码器的输出上使用什么缩放技术,以便我可以在所有模型中应用 1 个通用阈值来识别异常?