我正在花一些时间学习机器学习(对递归感到抱歉:),在多元线性回归的情况下,我不禁对选择梯度下降而不是直接方程求解来计算回归系数的经验法则很感兴趣。
经验法则:如果特征数量(读取系数/自变量)介于或超过一百万,使用梯度下降,否则矩阵逆计算在商品硬件上相当易于管理,因此直接计算系数应该表现得足够好。
从计算上讲,我得到了权衡/限制。但是从统计的角度来看,我们真的计算过具有这么多系数的模型吗?如果我记得我在研究生院的多元线性回归课程,我们被警告不要使用过多的自变量,因为它们对因变量的影响可能非常微不足道,或者它们的分布不符合我们对数据所做的假设。即使我确实扩展了我的思维来思考“许多静脉注射”,我仍然不会想到数百万。
问题):
- 这是真的发生还是理论上的问题?
- 分析一百万个 IV 有什么意义?与忽略它们相比,它真的让我们获得的信息价值增加了那么多吗?
- 或者是因为,最初我们不知道什么是有用的,所以我们只是运行该死的回归来看看什么是有用的,然后从那里开始并可能修剪这组 IV?
我仍然相信,仅仅因为我们可以分析“一切”并不意味着我们应该将其放入求解器(或这样做),我过去的一些问题反映了类似的 POV。
我还没有完成这门课程,我可能很快就会问这个问题,但我就是无法摆脱这个“为什么”的想法,并试图尽我所能理解它。