有哪些非训练分类方法可用?

数据挖掘 分类
2021-09-27 08:41:45

我试图找出哪些分类方法可用,不使用训练阶段。

该场景是基于基因表达的分类,其中您有一个包含 m 个基因(特征)和 n 个样本(观察值)的基因表达矩阵。还提供了每个类的签名(即要考虑定义样本属于哪个类的特征列表)。

一个应用程序(非训练)是最近模板预测方法。在这种情况下,计算每个样本和每个签名之间的余弦距离(在公共特征集上)。然后将每个样本分配给最近的类(样本类比较导致更小的距离)。在这种情况下,不需要已经分类的样本。

另一个应用(训练)是kNN方法,其中我们有一组已标记的样本。然后,根据如何标记 k 个最近的样本来标记每个新样本。

还有其他非训练方法吗?

谢谢

3个回答

您要问的是基于实例的学习k-最近邻(kNN)似乎是这些方法中最流行的,并且适用于各种问题领域。另一种基于实例的学习的通用类型是类比建模,它使用实例作为示例与新数据进行比较。

您将 kNN 称为使用训练的应用程序,但这是不正确的(您链接的 Wikipedia 条目在这方面有些误导)。是的,有“训练示例”(标记实例),但分类器不会从这些数据中学习/训练。相反,它们仅在您真正想要对新实例进行分类时使用,这就是为什么它被认为是“惰性”学习器的原因。

请注意,您有效提到的最近模板预测方法是 kNN 的一种形式,其中k=1余弦距离作为距离度量。

nsl-我是机器学习的初学者,所以请原谅这里的外行描述,但听起来您可能能够使用主题建模,例如潜在狄利克雷分析 (LDA)。它是一种广泛用于对文档进行分类的算法,根据它们所涉及的主题,基于找到的单词以及这些单词在整个语料库中的相对频率。我提出它主要是因为在 LDA 中没有必要提前定义主题。

由于 LDA 的帮助页面主要是为文本分析而编写的,为了将其应用于您的问题,我将使用的类比是: - 将每个基因表达或特征视为一个“单词”(有时在典型的 LDA 文本分类应用程序) - 将每个样本视为文档(即,它包含各种单词或基因表达) - 将签名视为预先存在的主题

如果我没记错的话,LDA 应该给出每个主题的加权概率,关于它在每个文档中的存在程度。

可能是 kNN 和朴素贝叶斯分类器。kNN 非常快,但是 NBC 可以分解很多。线性回归也是不涉及基于梯度的学习的一步解决方案,因此可能会有所帮助。LDA 是您的下一个选择。