如何进行多元机器学习?(预测多个因变量)

机器算法验证 r 机器学习 多元分析
2022-03-24 19:07:42

我正在寻找预测某人将购买的物品组......即,我有多个共线因变量。

与其建立 7 个左右的独立模型来预测某人购买这 7 个项目中的每一个的概率,然后结合结果,我应该研究什么方法来建立一个模型来解释 7 个相关的因变量之间的关系(他们可以购买的东西)。

我使用 R 作为编程语言,所以任何 R 特定的建议都值得赞赏。

4个回答

根据您的描述,多项逻辑回归似乎是合适的。假设您的结果是一个具有 7 个级别的因素(7 个购买选项之一),那么您可以使用多项逻辑回归模型快速预测成员资格(参见R?multinom中的nnet包)。如果您的结果无法组合成具有 7 个水平的因子,则需要在拟合多项逻辑回归之前进行聚类分析以将项目组合在一起。

您可以构建一个随机森林,其中您的每个类都是一组项目(即“带有农场草莓的青苹果,加 2% 牛奶”)。然后,根据购物者的特征或您的预测因素,您可以为每组商品提供预测的购买概率。我会使用 R 的 randomForest 包(https://cran.r-project.org/web/packages/randomForest/index.html)来做到这一点。

一种选择是获取所有产品购买组合的频率;选择几个最常见的组合;然后建立一个回归模型来预测每个人选择的组合。例如,通过二元逻辑回归,您可以想象购买 a) 白葡萄酒、布里干酪、草莓和葡萄与 b) 红葡萄酒、切达干酪和高达。对于超过 2 个这样的组合,或者如果您想包括“以上都不是”的类别,则多项逻辑回归可能是选择的方法。

请注意,仅包括常见组合意味着您将拥有更多可用的每个组合,但您将排除其他组合,至少在此过程中是这样。我可以想象 7 个项目创建了数十个组合,每个组合至少由几个人选择。对于您的样本量,这可能是太多的类别。此外,如果只有少数人选择了一个组合,那么您的模型将没有多少信息可以使用。

另一种选择是使用聚类分析来得出几组倾向于一起购买的物品。如果有 7 个项目,您最终可能会得到少于 4 个集群,这可能会使您的任务更容易。如果您尝试聚类分析并发现结果不可行,则没有理由必须使用它们:只需回到上面描述的基于频率的方法即可。在这种情况下,如果我没看错的话,您正在寻找最具描述性和最有趣的类别数组,并且在确定这一点时,您无需担心自由度或多重比较或任何可能适用的此类问题如果您在执行某些推理测试时尝试了多种方法。

我假设您要分析类似于以下的情况;

Yi = f(X),其中 f() 是非线性链接,X 是协变量向量,Yi 是第 i 个因变量,本质上是序数(如果是分类 Yi 不能超过两个类别),并在您的模型中说 i = 1, 2, ...5 并且每个 Yi s 都是相关的...如果是这样,您当然可以使用 Multivariate Probit。R、Mplus 和 SAS 可以估计 MVP

相比之下,您有 Y = f(X),并且 Y(请注意只有一个 Y)是分类的,例如,有 N 个类别,因此对 N 个类别做出的选择是排他性和详尽的;您需要拟合多项 Logit 模型。还有一种叫做多项式概率的东西,类似于多项式 Logit。

希望这可以帮助。谢谢桑乔伊