我正在研究一个需要解决大约 5 亿个线性回归 (OLS) 的问题。什么是最有效的方法(例如使用 GPU 或可以有效地做到这一点的一些框架)?
请注意,在我的情况下,每个单独的 OLS 问题的大小都是“小”的,例如每个输入数据集有 100 个观测值,(最多)5 个特征。
这是我尝试过的:
我使用 25 核机器并使用 Python3 多处理模块在所有内核上并行计算。为了解决 OLS,我使用 numpy.linalg.solve,因为我发现它比 sklearn.linear_model.LinearRegression 更有效。