我有一个包含 5k 个主题的数据集。这是一个二元分类问题,我有 3000 个正面和 2000 个负面主题。
现在要建立一个模型,我不喜欢用通常的方式训练(我们建立一个广义模型)。
相反,我想将类似的患者分组在一起,例如 group1、group2、group3、group4 等。
当我新的主题预测时,我想知道他属于哪个组并找出每个组的重要预测因子?
我知道这听起来像 K-means 聚类,但我理解正确吗?
任何人都可以向我提供有关如何执行此操作的步骤列表(伪代码类型)吗?抱歉,我是 ML 新手,正在探索解决分类问题的各种方法