感谢您就哪种预测 ML 模型最适合我们的数据集提供意见。
数据集的主要特征是 x,y(连续)和 c(L=500 左右无序水平的因子)。次要特征(~20)既是连续的又是因子。我们知道最低阶的相关性是 x~y。我们还知道,为 c 中的每个级别建模 x~y 可以显着提高拟合度。
我们当然可以创建 L 个独立的线性模型,但想探索这些亚线性关系部分相关的单个模型。原因是某些级别的 c 具有相对较低的统计数据,并且会从全局 x~y 关系中受益。此外,当扩展到次要特征时,我们想要一个单一的模型。
欢迎任何建议。(在特定库的情况下,首选 R。)