选择哪种机器学习算法?

数据挖掘 算法 无监督学习 机器学习模型
2022-02-16 07:02:36

我想选择一个学习预测的无监督算法n数据的输出,例如。图像中的 4 个坐标(像素)。我应该选择什么算法?我认为将图像中的点集划分为属于输出(1)或不属于(0)是一个 2 类分类,也许是逻辑回归来给出一个点作为输出点的概率。但我很困惑,因为分类算法是我们标记数据的监督算法的一部分。我应该使用聚类来找到可以输出的两组点吗?也许异常检测可以找出 4 个奇怪的点?

2个回答

如果您想使用无监督方法,即如果您的数据没有用类标记,那么像k-means 聚类这样的方法可能是您在数据中查找模式的最佳选择。

或者,如果您想进行异常检测,有 2 个可能的选项是

  1. 假设您的数据是正态分布的,您可以将高斯拟合到您的数据并计算概率密度函数 (PDF)。获得 PDF 后,您可以设置阈值概率,低于该阈值的数据点可被归类为异常
  2. 如果您有足够的数据,请使用变分自动编码器神经网络。非常粗略地说,你在所有你认为“正常”的数据上训练它(神经网络学习如何在输出中重建输入数据),然后当异常情况传递给网络时,它无法重建它。如果网络不能准确地重建它,数据就是异常的。

由于您没有任何可用的标记数据,因此执行监督学习算法或至少是半监督学习算法并不容易。如果您可以使用标记数据的小数据集,后者可能非常有用。

一种解决方案可能是执行聚类算法,首先排除目标特征,例如 k 等于 2 的 k-means,然后在考虑聚类伪标签的情况下训练模型。但是您仍然无法识别这两个集群中的哪一个是“1”类或哪一个是“2”类。

你可以有一个合理的解决方案,只包括一些标记的数据,否则你可以只执行一些聚类分析。