数据科学和机器学习的新手警报。我目前正在学习监督学习和无监督学习,监督学习很容易消化,我可以与很多实际用例相关联。无监督学习是我无法将其与现实世界的用例相关联的地方(尽管我发现了许多引述人们说他们将其用于客户细分、欺诈检测等)。
为了论证起见,我将仅引用一个取自 MS Azure Studio 示例的示例。
该数据集包含国家及其在各种形式食物中的平均蛋白质摄入量)。
当这个数据集通过 KMeans 算法运行时,它会创建 3 个集群并在这些集群中拟合国家名称。
那么在这个具体的例子中,我要解决的问题是什么?
我是否正在寻找基于蛋白质摄入习惯的类似国家?
我是否根据给定的数据集创建组,然后有人类智能来使这些组(或集群)有资格说“素食丰富的国家”、“红肉丰富的国家”等。然后当一个新的国家出现时,我们预测这是否国家属于哪个集群?
在这种情况下,工作流中需要一个中间人的智能,它需要标记集群(而不是标记分类中的每个数据点)。这是一个正确的理解吗?