如果我是正确的,“无监督分类”与聚类相同。那么有“无监督回归”吗?谢谢!
有“无监督回归”吗?
我以前从未遇到过这个词。我不确定它是否会在任一统计领域传播光明或黑暗:机器学习(监督和无监督的区别是解决问题的核心)和推理统计(最常使用回归、验证性分析和 NHST)。
在这两种哲学重叠的地方,大多数回归和相关术语都是在严格监督的环境中抛出的。但是,我认为无监督学习中的许多现有概念都与基于回归的方法密切相关,尤其是当您天真地迭代每个类或特征作为结果并汇集结果时。这方面的一个例子是 PCA 和双变量相关分析。通过在多个变量上迭代地应用最佳子集回归,您可以进行非常复杂的网络估计,如结构方程建模中所假设的(严格意义上的 EFA)。在我看来,这似乎是一个带有回归的无监督学习问题。
然而,回归参数估计不是自反的。对于简单的线性回归,在会给你不同的结果、不同的推论和不同的估计(甚至不一定是反向的),而不是在上。在我看来,这种缺乏交换性使得大多数天真的回归应用程序不适合无监督学习问题。
我能想到的最接近的事情是几年前宣布它时激起人们的一点黑魔法,但我不相信它在社区中获得了任何真正的吸引力。作者开发了一个统计数据,他们称之为“最大信息系数 (MIC)”。他们的方法背后的总体思路是获取高维数据,将每个变量与其他变量成对绘制,然后将有趣的窗口分箱算法应用于每个图(计算这两个变量的 MIC)以确定是否存在可能是两个变量之间的关系。该技术在识别任意结构的关系方面应该是稳健的,而不仅仅是线性的。
该技术针对成对的变量,但我确信它可以扩展到研究多变量关系。主要问题是您必须在更多变量组合上运行该技术,因为您允许排列越来越多的变量。我想仅使用对可能需要一些时间:尝试在远程高维数据上使用它并考虑比变量对更复杂的关系将很快变得难以处理。
自动回归是一种计算矩阵权重的方法,以最小化来自给定输入的重构输入的误差。
在研究有监督和无监督方法之间的区别时,我想到了这个问题。来自计量经济学背景,我更喜欢在模型中思考,这减慢了我的理解,因为我遇到的大多数机器学习文献都集中在方法上。
到目前为止,我发现应该严格区分clustering
(无监督)与classification
(监督)。这些模型设计之间关系的连续类比将是principal component analysis
(无监督)与linear regression
(监督)。
但是,我认为聚类和分类之间的关系纯属巧合。只有当我们将两种模型设计都解释为描述几何关系时,它才存在,我认为这具有不必要的限制。我所知道的所有无监督方法(k-means、弹性映射算法,如 kohonen/neural gas、DBSCAN、PCA)也可以解释为潜变量模型。在聚类方法的情况下,这相当于将属于一个聚类的状态视为一种状态,可以通过引入状态虚拟变量将其编码为潜在变量模型。
给定作为潜在变量模型的解释,您可以自由指定任何可能是非线性的模型,该模型根据连续潜在变量描述您的特征。