我们真的用*百万*系数/自变量进行多元回归分析吗?

机器算法验证 机器学习 多重回归 大数据
2022-02-15 17:43:53

我正在花一些时间学习机器学习(对递归感到抱歉:),在多元线性回归的情况下,我不禁对选择梯度下降而不是直接方程求解来计算回归系数的经验法则很感兴趣。

经验法则:如果特征数量(读取系数/自变量)介于10,0001,000,000或超过一百万,使用梯度下降,否则矩阵逆计算在商品硬件上相当易于管理,因此直接计算系数应该表现得足够好。

从计算上讲,我得到了权衡/限制。但是从统计的角度来看,我们真的计算过具有这么多系数的模型吗?如果我记得我在研究生院的多元线性回归课程,我们被警告不要使用过多的自变量,因为它们对因变量的影响可能非常微不足道,或者它们的分布不符合我们对数据所做的假设。即使我确实扩展了我的思维来思考“许多静脉注射”,我仍然不会想到数百万

问题):

  • 这是真的发生还是理论上的问题?
  • 分析一百万个 IV 有什么意义?与忽略它们相比,它真的让我们获得的信息价值增加了​​那么多吗?
  • 或者是因为,最初我们不知道什么是有用的,所以我们只是运行该死的回归来看看什么是有用的,然后从那里开始并可能修剪这组 IV?

我仍然相信,仅仅因为我们可以分析“一切”并不意味着我们应该将其放入求解器(或这样做),我过去的一些问题反映了类似的 POV。

我还没有完成这门课程,我可能很快就会问这个问题,但我就是无法摆脱这个“为什么”的想法,并试图尽我所能理解它。

1个回答

这是真的发生还是理论上的问题?

它发生了,请参阅任何流行的计算机视觉深度学习模型。比如说,alexnet在 2048 和 2048 个单位之间有一个密集连接,即 400 万个系数。

分析一百万个 IV 有什么意义?与忽略它们相比,它真的让我们获得的信息价值增加了​​那么多吗?

如果您正在分析高度分类的数据(例如,互联网广告数据),您的模型必须为每个类别(例如城市、页面 ID、站点名称、广告 ID、用户 ID 等)保留一些有意义的“描述”,实际“描述”的大小取决于所选的 ML 模型。

即使是简单的逻辑回归也会有成千上万个参数需要拟合(每个类别一个)。更先进的模型,如分解机器,将会有更多的时间。

或者是因为,最初我们不知道什么是有用的,所以我们只是运行该死的回归来看看什么是有用的,然后从那里开始并可能修剪这组 IV?

实际上,这些模型中的大多数拟合参数都可以删除,但您无法事先知道,因此您留下了定义哪些参数对机器学习很重要的问题,并施加一些正则化以将“软限制”设置为有效数量留下的参数。

...而且我认为您稍后会在您的 ML 课程中找到此类示例。