当使用无监督算法时,什么是“学习”部分,因为它属于机器学习领域?

数据挖掘 机器学习 无监督学习 监督学习
2021-10-15 17:11:48

我通过使用聚类算法获得了机器学习的简要经验,我还阅读了简单分类算法的基本思想和计算。现在,我会阅读更多关于“机器学习”的内容,我发现了许多类似的定义,如下所示:

“机器学习是让计算机在没有明确编程的情况下采取行动的科学......”

“机器学习是一种人工智能 (AI),它允许软件应用程序在预测结果方面变得更加准确,而无需明确编程......”

我的理解是,无需重新编程即可学习和适应演绎(输出)的能力是主要思想,并且根据我个人的理解,这种“适应”只有通过“监督算法”才能实现,并且可以允许改变/使用相同的程序和源代码对输出模型进行适配/改进。

所以再次根据我的理解,这种“适应”和“学习”的定义不适合无监督的机器学习算法,因为所有计算的模型都是固定和实现的!任何更改都需要更新源代码!

因此,我将对我的误解进行更正,并进行更多澄清,以更好地理解“机器学习”和无监督/监督学习关系。

2个回答

你说:

并且根据我个人的理解,这种“适应”只有通过“监督算法”才能实现

然而,事实并非如此。让我们将聚类方法视为一种无监督算法,如 K-means。K-means 算法中的每次迭代都是 K-means 下一次迭代直至算法收敛的基础。因此,这意味着我们正在学习每次迭代中的数据结构,直至达到特定的目标值。尽管它是无监督的,但我们在每次迭代中都在学习数据的结构。事实上,它完全是一种(无监督的)学习。

监督学习是指从示例中学习一个概念。这些示例通常需要人工完成,这通常是“昂贵的”。事实上,实际 ML 工作的很大一部分是想出获取训练数据的智能方法(例如 reCaptcha)。

监督学习是在没有标记数据的情况下进行学习,仅此而已。集群是一个例子,PCA 是另一个例子,自动编码是最新最热门的东西(恕我直言)。在某种意义上,无监督学习试图压缩数据(通过沿着数据排序的线或流形查找高维表示的子空间):您正在尝试制定在更高级别上描述数据的概念,这涉及找到更智能的描述。

它可能与 K-means 相比有些飞跃,但请考虑一下:我可以使用一组抽象来轻松地向您描述一张照片(fi:我看到一只带骨头的狗 -> 23 字节)。这将为您提供场景图片,而无需我向您发送完整的数据集(fi:1080 * 768 点 ~ 10^6 字节)。从概念上讲,这有点类似于:集群 1 的 4 个示例和集群 4 的一个示例,而不是发送 5 个完整实例,例如 10.000 个特征。