假设您获得了一个数据集,其中响应是连续的。你所追求的唯一预测是,即响应大于某个值。
在这种情况下,最好
(1) 使用产生连续输出的回归算法,然后手动检查响应是否为?
(2) 使用分类算法。为此,我们必须首先对训练数据进行预处理,以便样本与设置为用于二进制分类,否则为 0。
似乎两者都是可行的,但哪个更好,或者两者的优点/缺点是什么?
假设您获得了一个数据集,其中响应是连续的。你所追求的唯一预测是,即响应大于某个值。
在这种情况下,最好
(1) 使用产生连续输出的回归算法,然后手动检查响应是否为?
(2) 使用分类算法。为此,我们必须首先对训练数据进行预处理,以便样本与设置为用于二进制分类,否则为 0。
似乎两者都是可行的,但哪个更好,或者两者的优点/缺点是什么?
有趣的问题。首先,经典的线性回归是为散布正态分布的应用开发的。如果您绘制残差分布,它应该具有经典的钟形。当您的数据符合这些模型先决条件时,您也可以使用线性回归。线性回归预测的置信区间也是已知的,建议您使用这些。
当您的预测变量来自离散或多模态连续分布时,您可以从非参数分类器中受益。例如,可以使用直方图分类器或 K-最近邻分类器。我假设训练一个神经网络来预测会以某种方式“过头”。
所以我的建议是让你的选择由你的数据分布给出。
在您撰写本文时,任何一种方法都是可行的。我认为你不能给出一般性的建议。在某些情况下,与另一种方法有关的现有知识可能比与另一种方法有关的知识更多——例如,如果您要预测时间序列,则预测连续目标变量(方法 1)比预测二元变量(方法2)。
所以我建议你尝试这两种方法,看看哪一种更适合你手头的问题。请务必使用适当的“更好”衡量标准 -而不是准确性,即.