是否可以为仅包含因变量的正数出现的数据集创建预测模型?

数据挖掘 预测建模
2022-03-07 18:45:53

假设我想预测地震。

我的数据集将仅包含有关地震发生的数据,而没有有关非地震发生的数据,因为这基本上是未保存在数据集中的任何其他时间段。

在这种情况下,我假设决策树或逻辑回归将不起作用,因为我们没有二分因变量(因为只有在发生地震时才会进入数据集)。

是否有适合这种情况的模型,或者是否需要不同的方法?

3个回答

我的数据集将仅包含有关地震发生的数据,而没有有关非地震发生的数据,因为这基本上是未保存在数据集中的任何其他时间段。

如果您可以指定用于预测的特征,那就太好了。

在这种情况下,我假设决策树或逻辑回归将不起作用,因为我们没有二分因变量(因为只有在发生地震时才会进入数据集)。

在这里你是对的!因此,最好使用异常检测算法。这里有些例子

  1. 无监督异常检测
  2. 异常值检测
  3. python中的异常检测

以地震为例,我假设您的目标是预测二分变量,但实际上您只观察(或记录)具有两个标签之一的样本。在这种情况下很难做出预测。最好的办法是实际获得那些带有其他标签的样本。如果您真的无法获得这些样本,那么 Anoop A Nair 的答案指向正确的方向:无监督方法。基本上,您学习样本的分布并将任何在学习分布下概率较低的新样本标记为“新奇”。仅以地震为例,学习正常事件的分布要比了解地震的分布要好得多,因为后者更罕见。

是否可以为仅包含因变量的正数出现的数据集创建预测模型?

一类分类是一种分类算法,正是这样做的。

在一类分类中,原则是发现表征类实例的模式,假设所有不遵循这些模式的东西都不属于该类。该模型仅使用该类中的示例进行训练,并且当应用该模型时,该模型会预测输入实例属于该类的概率。通过对概率设置阈值,该模型可以用作二元分类器。

在方法/实现方面,我知道一类 SVM,但可能还有其他方法。