我有一个多头/空头股票对冲基金回报及其相关基准(市场指数)的数据集。
我需要使用基准收益作为自变量对基金收益进行多元回归(我可以对指数进行线性组合或操纵,甚至是非线性组合)。
当然,我不知道该选择哪些自变量。是否应该在这种情况下使用子集选择、Lasso 和 Ridge 等技术?
我有一个多头/空头股票对冲基金回报及其相关基准(市场指数)的数据集。
我需要使用基准收益作为自变量对基金收益进行多元回归(我可以对指数进行线性组合或操纵,甚至是非线性组合)。
当然,我不知道该选择哪些自变量。是否应该在这种情况下使用子集选择、Lasso 和 Ridge 等技术?
您可以采取几个步骤来选择线性回归的特征:
1 - 排除彼此高度相关的变量。如果变量高度相关,您实际上是在多次输入相同的信息,这可能会导致过度拟合并且不满足线性回归没有多重共线性的属性。您可以创建一个 Pearson 相关矩阵,并使用一些选定的阈值确定哪些变量相关性太高,即只保留相关系数 < 0.3 的变量
2 - 如果您有很多变量,您可以执行主成分分析 (PCA) 以减少数据的维度并将其用作线性回归特征。PCA 的想法是在保留所有信息的同时减少维度。来自 PCA 的每个分量都是不相关的,满足无多重共线性特性。
3 - 还有一种称为逐步线性回归的方法。您允许所有变量进入模型,它会迭代地删除和添加变量,直到产生具有最高 R 平方(或您选择的模型指标)的模型。您必须谨慎使用逐步方法,因为它可能导致过度拟合,但它可以指示要使用哪些功能。这里有一些关于逐步的信息:https ://en.wikipedia.org/wiki/Stepwise_regression
4 - 如果您使用的是 R,有一个名为“caret”的出色包可以帮助您选择功能。这是一个用作指南的绝妙链接:https ://machinelearningmastery.com/feature-selection-with-the-caret-r-package/
希望这有助于作为一个起点