可扩展的异常值/异常检测

数据挖掘 数据挖掘 大数据 算法 离群值
2021-09-21 07:27:38

我正在尝试使用 Hadoop、Hive、Elastic Search(以及其他)设置大数据基础架构,并且我想在某些数据集上运行一些算法。我希望算法本身具有可扩展性,因此不包括使用 Weka、R 甚至 RHadoop 等工具。Apache Mahout 库似乎是一个不错的选择,它具有用于回归和聚类任务的算法

我正在努力寻找的是异常或异常值检测的解决方案。

由于 Mahout 具有隐马尔可夫模型和各种聚类技术(包括 K-Means),我想知道是否可以使用其中的任何一种来构建一个模型来检测时间序列中的异常值。如果有这方面经验的人能给我建议,我将不胜感激

  1. 如果可能的话,如果是的话
  2. 怎么做,加上
  3. 对所涉及的工作量的估计和
  4. 这种方法的准确性/问题。
2个回答

您可以参考我在 stackexchange 中与 h2o R 或 Python 异常检测方法相关的回复因为它也是可扩展的。