为异常检测自动选择特征的最佳方法是什么?
我通常将异常检测视为由人类专家选择特征的算法:重要的是输出范围(如“异常输入 - 异常输出”),因此即使有许多特征,您也可以通过组合得出一个更小的子集特点。
但是,假设在一般情况下,特征列表可能很大,那么有时自动学习可能更可取。据我所知,有一些尝试:
- “用于异常检测的自动特征选择”(pdf)概括了支持向量数据描述
- “A Fast Host-Based Intrusion Detection System Using Rough Set Theory”(没有可用的 pdf 文件?)我猜它使用了 Rough Set Theory
- 使用统计方法的“恶意网络流量异常检测的学习规则”(pdf,视频)
所以现在我想知道是否有人能说出来——假设异常检测和一个非常大的(数百个?)功能集:
- 那些庞大的功能集是否有意义?我们不应该将功能集减少到几十个,仅此而已?
- 如果巨大的特征集确实有意义,那么上述哪种方法会给出更好的预测,为什么?有什么没有列出的更好吗?
- 与通过聚类/排名/等进行降维或特征构建相比,它们为什么要给出更好的结果?