选择估计线性回归模型中未知参数的最佳方法

数据挖掘 机器学习 回归 偏最小二乘法
2021-09-22 20:54:25

给定一些用于预测的数据集,

例如说我有不同的房价预测数据集:

数据集 1:100 个训练样本和 100 个测试样本,50 个特征

数据集 2:100 个训练样本和 100 个测试样本,120 个特征

数据集 3:1000 个训练样本和 1000 个测试样本,50 个特征

数据集 4:1000 个训练样本和 1000 个测试样本,5000 个特征

对于每个数据集,我应该如何从以下线性回归模型中选择估计未知参数(预测价格)的最佳方法?

  • 普通最小二乘

  • 逐步回归

  • 主成分回归

  • 偏最小二乘回归

我应该对这些中的每一个进行试验并比较结果,还是有任何关于何时根据数据集使用它们的重击规则?

请帮忙

1个回答

在 Data Munging 之后,这是预测模型中最困难的任务。但是,为了回答它,我们需要更多细节。“最佳模特”是什么意思?你想要准确性和长时间的训练吗?您是否需要一些真正快速但准确度较低的东西?他们两个之间有什么关系?你有什么特点?您是刚刚使用它们还是从它们中创建了新功能?

无论如何,我建议你花点时间阅读微软关于机器学习的完美教程。教程的一部分来理解我的意思:

回归

  1. 序数回归:排序类别中的数据
  2. 泊松回归:预测事件计数
  3. 快速森林分位数回归:预测分布
  4. 线性回归:快速训练,线性模型
  5. 贝叶斯线性回归:线性模型,小数据集
  6. 神经网络回归:准确,训练时间长
  7. 决策森林回归:准确,快速训练
  8. 增强决策树回归:准确性、快速训练

当我有类似的问题并且我不知道该选择哪一个时,我通常会根据 Microsoft 的备忘单或scikit-learn中的一个,最终选择 3-4 种不同的算法,全部尝试并选择一种或其中两个成绩最好。