“一组线性模型”的模型选择?

数据挖掘 机器学习 r 算法 模型选择 机器学习模型
2022-03-07 07:17:23

感谢您就哪种预测 ML 模型最适合我们的数据集提供意见。

数据集的主要特征是 x,y(连续)和 c(L=500 左右无序水平的因子)。次要特征(~20)既是连续的又是因子。我们知道最低阶的相关性是 x~y。我们还知道,为 c 中的每个级别建模 x~y 可以显着提高拟合度。

我们当然可以创建 L 个独立的线性模型,但想探索这些亚线性关系部分相关的单个模型。原因是某些级别的 c 具有相对较低的统计数据,并且会从全局 x~y 关系中受益。此外,当扩展到次要特征时,我们想要一个单一的模型。

欢迎任何建议。(在特定库的情况下,首选 R。)

1个回答

广义线性模型(glm)似乎工作合理。

glm(y ~ x * c, data=df) 及其扩展。