政权分类预模型训练?

数据挖掘 分类 回归
2022-02-21 18:33:28

我没有这方面的正式背景,所以请多多包涵。这是我的数据集的样子: 类

我有兴趣使用其余的作为解释来对第一个变量进行建模。一个简单的 OLS 产生了一个或多或少令人满意的模型,但直觉上,我知道有 k 个(在 2 到 4 之间)方案,其中我的 Y 和某些变量之间的相关性完全切换,使得整个数据集的一个完整 OLS 有点无关紧要,因为我们通过这样做可以平滑所有这些制度。我尝试使用 R 中的 k-means 算法使用相关相似性来区分这些制度,结果是图片中的着色。我希望以这种方式划分数据集会揭示更多“直线”,而 OLS 会更“合适”。我想知道我的方法是否正确,如果有人能指出解决基本问题的更好方法,我将不胜感激:

1个回答

只是几个想法:

  • 看起来这些“制度”可以表示为一个潜在变量:您可能可以设计一个贝叶斯模型,其中 OLS 模型取决于这个潜在变量的值。这意味着模型仍将仅使用观察到的特征进行训练,但会在内部预测状态的值,并且该值将确定 OLS 模型的参数。
  • 对于这种逐个案例设置,更直接的方法是使用决策树(或随机森林),因为它们可以处理不同分支中的独立模型。但是我不确定如何使决策树和线性回归一起工作(或者是否有可能)。