假设我想预测地震。
我的数据集将仅包含有关地震发生的数据,而没有有关非地震发生的数据,因为这基本上是未保存在数据集中的任何其他时间段。
在这种情况下,我假设决策树或逻辑回归将不起作用,因为我们没有二分因变量(因为只有在发生地震时才会进入数据集)。
是否有适合这种情况的模型,或者是否需要不同的方法?
假设我想预测地震。
我的数据集将仅包含有关地震发生的数据,而没有有关非地震发生的数据,因为这基本上是未保存在数据集中的任何其他时间段。
在这种情况下,我假设决策树或逻辑回归将不起作用,因为我们没有二分因变量(因为只有在发生地震时才会进入数据集)。
是否有适合这种情况的模型,或者是否需要不同的方法?
我的数据集将仅包含有关地震发生的数据,而没有有关非地震发生的数据,因为这基本上是未保存在数据集中的任何其他时间段。
如果您可以指定用于预测的特征,那就太好了。
在这种情况下,我假设决策树或逻辑回归将不起作用,因为我们没有二分因变量(因为只有在发生地震时才会进入数据集)。
在这里你是对的!因此,最好使用异常检测算法。这里有些例子
以地震为例,我假设您的目标是预测二分变量,但实际上您只观察(或记录)具有两个标签之一的样本。在这种情况下很难做出预测。最好的办法是实际获得那些带有其他标签的样本。如果您真的无法获得这些样本,那么 Anoop A Nair 的答案指向正确的方向:无监督方法。基本上,您学习样本的分布并将任何在学习分布下概率较低的新样本标记为“新奇”。仅以地震为例,学习正常事件的分布要比了解地震的分布要好得多,因为后者更罕见。