我有一个假设,但我不知道这是不是真的。
如果集群是密集的并且我们对该数据应用监督学习,则该集群生成的模型对于落入该集群的新数据将比其他模型更有效。因此我们有多个带有关联模型的集群
如何选择正确的关联模型来优化我们的预测?我们可以将点的值与集群的平均值进行比较并应用正确的模型!
有什么建议 ?
我有一个假设,但我不知道这是不是真的。
如果集群是密集的并且我们对该数据应用监督学习,则该集群生成的模型对于落入该集群的新数据将比其他模型更有效。因此我们有多个带有关联模型的集群
如何选择正确的关联模型来优化我们的预测?我们可以将点的值与集群的平均值进行比较并应用正确的模型!
有什么建议 ?
您也可以尝试tSNE,也可以在scikit-learn中找到。它是一种概率降维技术,专为绘制二维或三维数据而设计,同时尽可能保留样本之间的原始距离。
您应该能够看到您的数据的集群情况。
我只是想插话并强调在建模之前使用聚类来分割数据可能是一个坏主意。
在高层次上,聚类是相似性的两/三维可视化。
如果您的数据集有两个/三个维度,您可能可以使用聚类来分割数据,因为所有可能的关系都被聚类可视化。
但是,如果您有超过三个变量,您将无法可视化所有可能的关系,这意味着使用 2D/3D 聚类可能会发现不存在的模式。有关详细信息,请参阅Steinbach、Ertöz 和 Kumar。
话虽这么说,您可以使用降维技术将数据集的维度减少到两/三个维度,然后对您的人口进行聚类——但这是有条件的。通过降低数据集的维度以获得可聚类的结果,您可能会丢弃在建模时有用的信息。
另外:我建议使用更正式的指标来确定集群的充分性,请参见此处- 也许您使用的集群太多/不够?
我只回答了你问题的一半,所以现在我将尝试第二部分:如有疑问,随机森林是你最好的朋友。将它们用作您的基线预测,您将获得开箱即用的高精度。
如果集群很好且密集,那么所有数据上的分类器都可以正常工作。依赖集群是有风险的。
当然,集群中的分类器可能会变得更容易,但总的来说,我预计错误会增加。