哪种机器学习算法可用于识别 CPU 缓存性能数据集中的模式?

人工智能 机器学习 算法 无监督学习 模式识别
2021-10-31 23:38:39

我需要一种机器学习算法来识别数据集中的模式(保存在 CSV 文件中),其中包含 CPU 缓存性能的详细信息。更具体地说,数据集包含ReadhitsReadmiss或等列Writehits

算法识别的模式应该在以下方面有所帮助。

  1. 帮助用户下次提高工作负载的性能,

  2. 帮助识别基于特征的任何问题,或

  3. 帮助用户根据模式预测未来可能发生的数据值或未来事件。

我可以使用哪些机器学习算法?

4个回答

您基本上要寻找的是无监督学习(UL)。周围有很多 UL 技术,但我不确定您是否会找到一种完全不需要用户输入的方法。不过,如果您浏览有关这些方法的文献,您可能会发现一些有用的东西。

一个选项是DBSCAN,这是一种非常流行的聚类算法,不需要用户输入初始目标聚类数(大多数聚类算法都需要)。但即便如此,您仍然必须为epsilon(用于计算集群的距离)和minPts(构成“密集”区域所需的最小点数)提供算法值。

您还可以查看自组织地图,这是一种用于神经网络的无监督学习方法。

其他一些可能将您引向有用方向的搜索词包括“数据挖掘”和“数据库中的知识发现”(KDD)。

受限玻尔兹曼机 (RBM) 可以识别 CSV 文件中的模式,而无需用户指定任何条件。它们非常适合生成“分布式和分级表示”,“组成真实高维数据的复杂特征集对于实现机器学习任务的高性能至关重要。” 1

因为 CSV 格式专门设计用于以行表示实例并以列表示一组静态属性,所以训练的设置很简单。如果目标是识别时间模式,则可能需要窗口策略。

K-RBM 是 k-mean 方法与 RBM 的合并。方法的选择与寻求什么样的模式有很大关系。术语模式可以应用于数字随时间的简单趋势、文本列中的常见模式或从多列推断的复杂模式。

参考

[1]受限玻尔兹曼机中组合表示的出现,J. Tubiana,R. Monasson,2017)

[2]使用 K-RBM 学习多个非线性子空间、Siddhartha Chandra、Shailesh Kumar 和 CV Jawahar

我需要一种机器学习算法来识别 CSV 文件中的任何模式

你想做无监督学习维基百科对它的定义是:

无监督机器学习是从“未标记”数据中推断出描述隐藏结构的函数的机器学习任务(分类或分类不包括在观察中)。

我将建议您在此处浏览无监督学习算法列表并使用适合您需要的算法。

如果您刚开始,那么我建议您从学习K-means 聚类算法开始。

首先,您必须对 CSV 文件的每个块进行分类,并根据当前情况对其进行标记,例如 A) 最佳情况 B) 关键。

然后使用无监督学习算法(如 SOM 或 k-means)对数据进行聚类,然后简单地对将获得的类进行分类。