数据挖掘 - 选择哪种机器学习算法？ - 吾爱随笔录

选择哪种机器学习算法？

数据挖掘算法无监督学习机器学习模型

2022-02-16 07:02:36

我想选择一个学习预测的无监督算法 $n$ 数据的输出，例如。图像中的 4 个坐标（像素）。我应该选择什么算法？我认为将图像中的点集划分为属于输出（1）或不属于（0）是一个 2 类分类，也许是逻辑回归来给出一个点作为输出点的概率。但我很困惑，因为分类算法是我们标记数据的监督算法的一部分。我应该使用聚类来找到可以输出的两组点吗？也许异常检测可以找出 4 个奇怪的点？

2个回答

如果您想使用无监督方法，即如果您的数据没有用类标记，那么像k-means 聚类这样的方法可能是您在数据中查找模式的最佳选择。

或者，如果您想进行异常检测，有 2 个可能的选项是

假设您的数据是正态分布的，您可以将高斯拟合到您的数据并计算概率密度函数 (PDF)。获得 PDF 后，您可以设置阈值概率，低于该阈值的数据点可被归类为异常
如果您有足够的数据，请使用变分自动编码器神经网络。非常粗略地说，你在所有你认为“正常”的数据上训练它（神经网络学习如何在输出中重建输入数据），然后当异常情况传递给网络时，它无法重建它。如果网络不能准确地重建它，数据就是异常的。

由于您没有任何可用的标记数据，因此执行监督学习算法或至少是半监督学习算法并不容易。如果您可以使用标记数据的小数据集，后者可能非常有用。

一种解决方案可能是执行聚类算法，首先排除目标特征，例如 k 等于 2 的 k-means，然后在考虑聚类伪标签的情况下训练模型。但是您仍然无法识别这两个集群中的哪一个是“1”类或哪一个是“2”类。

你可以有一个合理的解决方案，只包括一些标记的数据，否则你可以只执行一些聚类分析。

其它你可能感兴趣的问题

上一篇给定今年的数据，如何预测明年的总收入？下一篇仅通过比赛结果学习像 FIFA 这样的足球运动员统计数据