我有大约 60 个样本的小数据集,在回归中表现不佳。所以我想知道如何将这个任务转换为预测间隔而不是值。是否有可能让它在间隔而不是值上表现得更好?
数据集不平衡。只有少数高价值。该算法不断低估这些值。所以我认为如果我以间隔进行预测,它会在值上表现得更好,比如超过 50。
但是,总体而言,问题在于预测接近区间极限的值。将此值标记为属于两个区间是否更好?
我有大约 60 个样本的小数据集,在回归中表现不佳。所以我想知道如何将这个任务转换为预测间隔而不是值。是否有可能让它在间隔而不是值上表现得更好?
数据集不平衡。只有少数高价值。该算法不断低估这些值。所以我认为如果我以间隔进行预测,它会在值上表现得更好,比如超过 50。
但是,总体而言,问题在于预测接近区间极限的值。将此值标记为属于两个区间是否更好?
您的最终建议(在两个区间的区间“边缘”放置一个观察值)是非常规的,但可能值得尝试。请注意,序数逻辑回归需要比线性回归更多的参数,因此请小心添加太多类别,因为您的数据很小。
您可以考虑转换预测目标以减少极高值与其余数据之间的距离。
但是,一般来说,您需要了解为什么这些极高的值很高。它们是不正确的条目(即异常值)吗?或者数据中是否有一些特征可以添加到模型中,以便更好地预测数据点何时高于预期?
例如:
假设您试图预测学生在线性代数期中考试中的表现。您的数据集包含去年的考试成绩。也许您的模型包含以下功能:
您的模型通常表现良好。大多数学生的成绩都在 75-90 之间,但有些学生的成绩出乎意料地好,得分高达 90 多岁,几乎完美。您的模型无法预测这些学生的成绩。那么出了什么问题呢?一种可能性是高分学生有一些其他学生可能没有的其他属性。您回顾考试并意识到所有高分学生在您在办公时间课程中涵盖的难题上都做得很好。现在向模型添加一个新特征:
现在您的模型正确地预测了高分异常值。