我刚刚开始使用 Andrew Ng 的机器学习,其中他解释了鸡尾酒会问题与基因聚类问题的示例,以解释无监督学习本身中聚类和非聚类问题之间的区别。但是我仍然不明白两者之间的区别。有人可以帮忙澄清一下。
聚类与非聚类问题?
数据挖掘
机器学习
无监督学习
2022-01-29 12:59:38
3个回答
这两个示例都是聚类示例。聚类是在没有给定数据时对相似数据集进行分组。
在基因问题上,
- 一种可能的设置是为您提供 DNA 微阵列数据。你的任务是了解那里有多少种人。这是一个无监督学习问题,我们没有得到标签。我们只是将具有相似基因类型的人分组在一起。
在鸡尾酒会问题中:
- 一个房间里有两个人,还有麦克风。我们只是记录音频并将其传递给算法并告诉算法,嘿,如果有的话,学习模式。每个人可能有自己的语音模式/语言/口音。算法自己捡起这样的模式,检测到房间里有两个人,他们可以区分两个人的讲话。
让我举一个非聚类示例的示例。
例如,一个感兴趣的问题是检测异常。例如,您得到的可能是机器的正常运行状态,比如它们的传感器读数。从这些读数中,您必须了解机器的正常情况,并且您必须弄清楚何时给您一个新数据点,如果它被认为是正常的。
实际上,鸡尾酒会算法是非聚类的。
“非聚类:“鸡尾酒会算法”,允许您在混乱的环境中找到结构。(即从鸡尾酒会的声音网格中识别单个声音和音乐)。
好的,所以关于鸡尾酒会问题算法是否存在争论↨是非聚类问题还是聚类问题,而我可能没有资格回答这样的问题,我尝试研究并询问专家,这就是我的发现。
聚类问题:算法不会转换或改变数据(就像在基因问题中基因本身不会被改变一样),它只是根据某些特征对它们进行分组(将基因问题分为不同种类或类型的基因) . 然而,在非聚类问题中,算法正在转换数据/输入并改变数据。相信 Andrew NG 教授的话(作为他所在领域的顶级讲师和教授),鸡尾酒会问题是一个非聚类问题,我们现在可以看到为什么,因为它改变了数据,在这种情况下是声音,因此它更听着很清楚,实际上它改变了两次以获得第一个声音,第二次获得第二个声音。