我没有这方面的正式背景,所以请多多包涵。这是我的数据集的样子:
我有兴趣使用其余的作为解释来对第一个变量进行建模。一个简单的 OLS 产生了一个或多或少令人满意的模型,但直觉上,我知道有 k 个(在 2 到 4 之间)方案,其中我的 Y 和某些变量之间的相关性完全切换,使得整个数据集的一个完整 OLS 有点无关紧要,因为我们通过这样做可以平滑所有这些制度。我尝试使用 R 中的 k-means 算法使用相关相似性来区分这些制度,结果是图片中的着色。我希望以这种方式划分数据集会揭示更多“直线”,而 OLS 会更“合适”。我想知道我的方法是否正确,如果有人能指出解决基本问题的更好方法,我将不胜感激: