矢量输出回归的算法、技术、论文

数据挖掘 回归 机器学习模型
2022-03-15 05:54:59

我有一个回归问题,它的输入维度相对较低(比如 8 个初始相关特征,没有经过工程设计的特征),但输出向量维度非常高(不是输出的单个值,是实数向量)。基本上对于训练期间的每个样本,低维特征和 2500 个实数作为输出进入模型,然后测试样本采用相同类型的输入特征来预测 2500 个实数(一条曲线)。

              inputs                               outputs
 _________________________________________ _______________________________________
| a | b | c | ... | (engineered features) | 2500 reals as output (y's of a curve) |

由于我们不是机器学习专家,所以一开始我们甚至在找到一种支持输出向量而不是单点的算法时遇到了一些麻烦。

我不是在寻找通用的数据科学 101 建议,例如:清理数据、选择相关特征、理解数据等。我相信我们已经做得很好了,我们甚至在学习这些方面取得了一些有限的成功预测率约为 70% 的曲线(这听起来很粗糙,但考虑到这些数据的性质并不算太糟糕)。然而,正如我所说,我们不是专家,我仍然相信我们甚至没有考虑到针对这种特定类型问题的算法、框架、特征工程技术等方面的所有选择;我想尽我们所能得到最好的预测。鉴于这些数据,输入和输出之间肯定没有 100% 的关系。但我确实认为我们可以让它以高于 70% 的速度进行预测。也许。

我们正在使用 Python/SciPy/scikit-learn。我们正在进行 20 倍交叉验证,我们的数据集有大约 22000 个样本。

您将如何处理此类问题 - 您遇到/使用过/与此类问题相关的算法或论文?对于这种特定类型的问题,我们应该记住什么?

我们对此感到非常高兴:
在此处输入图像描述

不错:
在此处输入图像描述

不好:
在此处输入图像描述

有趣的:
在此处输入图像描述

1个回答

也许您可以将此定义为预测分布(我希望我没有误解您的问题!)。

您可以尝试使用 Markov Chain Monte Carlo(不要被名字吓到!)。这本质上是做什么的,它从您的输入数据中采样一个后验分布,并查看它与您的先验分布(您的数据)相关的可能性有多大。如果它认为样本适合您的数据,它会保留记录该样本,否则它会丢弃它。它一直这样搜索,直到达到某个停止标准。然后记录的所有接受点代表您的目标分布,它可以是 N 维的(因此希望与您的用例匹配)。

这是该主题的快速视频介绍,这是更深入的视频解释这是一个更全面的基于文本的介绍

您可以使用以下软件包开始执行此操作: