我有一组包含许多样本和许多特征的数据,但是其中一半的数据缺少一个变量(称为 A),它由四个类别组成。根据有 A 的一半数据,我想知道没有 A 的样本如果确实有 A,最有可能属于哪个类别。
我可以基于带有 A 的数据构建分类器,并预测没有 A 的数据(恕我直言,这是最好的路线)。
但出于好奇,我想知道这种方法是否也可以是一种非常、非常、非常粗略的方法来做类似的事情:
将具有 A 的数据聚类到与 A 中的类别相同数量的聚类中(在本例中为四个)。
检查集群和 A 中的类别之间的关联(使用频率表和卡方检验)。
如果存在关联,则通过聚类模型运行没有 A 的数据,以找出它最可能与哪个类别的 A 关联(基于它所在的集群)。
想法?