在线性回归中,我们如何最小化误差项?
如何减少线性回归中的误差
数据挖掘
机器学习
线性回归
2022-03-06 23:00:26
2个回答
根据评论回答:
这里的意图是通过一切手段和考虑来减少错误
- 模型的选择:首先让我们解决一个明显的假设:线性回归是一个模型,它要求将响应变量表示为自变量的线性组合。为了总体上提高性能,必须确保满足这些约束。如果不是,那么通常值得研究其他模型或找到一种“线性化”数据的方法。
- 数据清洗:根据数据的大小,线性回归可能对异常值非常敏感。如果对问题有意义,可以丢弃异常值以提高模型的质量。当然,不应该仅仅因为它减少了错误就删除点,这必须根据任务的特征明智地完成。
- 特征工程:值得分析/实验哪些自变量实际上有助于获得一个好的模型。例如,冗余变量可能会降低性能。变量也有可能以不同的方式表达或以提高性能的方式进行转换。
我还有两件事要补充:
首先,尝试交互效果,即当您添加变量时,例如:
y = A*x1 + B*x2 + A*B*x3
通过这种方式,一个新参数进入回归以解释 A 和 B 的相互依赖的影响。这是一种超越线性假设的技巧,并强制一个解释变量对 y 的影响依赖于第三个变量。通过这种方式,您可能会以更细微的方式捕获数据。
其次,仔细看看回归诊断。测试诸如:残差的异方差性、变量的正态性(和评估转换)、观察的不均匀影响等。有时回归表现不佳,因为他们训练的数据集不满足回归假设。