我需要一种机器学习算法来识别数据集中的模式(保存在 CSV 文件中),其中包含 CPU 缓存性能的详细信息。更具体地说,数据集包含Readhits
、Readmiss
或等列Writehits
。
算法识别的模式应该在以下方面有所帮助。
帮助用户下次提高工作负载的性能,
帮助识别基于特征的任何问题,或
帮助用户根据模式预测未来可能发生的数据值或未来事件。
我可以使用哪些机器学习算法?
我需要一种机器学习算法来识别数据集中的模式(保存在 CSV 文件中),其中包含 CPU 缓存性能的详细信息。更具体地说,数据集包含Readhits
、Readmiss
或等列Writehits
。
算法识别的模式应该在以下方面有所帮助。
帮助用户下次提高工作负载的性能,
帮助识别基于特征的任何问题,或
帮助用户根据模式预测未来可能发生的数据值或未来事件。
我可以使用哪些机器学习算法?
受限玻尔兹曼机 (RBM) 可以识别 CSV 文件中的模式,而无需用户指定任何条件。它们非常适合生成“分布式和分级表示”,“组成真实高维数据的复杂特征集对于实现机器学习任务的高性能至关重要。” 1
因为 CSV 格式专门设计用于以行表示实例并以列表示一组静态属性,所以训练的设置很简单。如果目标是识别时间模式,则可能需要窗口策略。
K-RBM 是 k-mean 方法与 RBM 的合并。方法的选择与寻求什么样的模式有很大关系。术语模式可以应用于数字随时间的简单趋势、文本列中的常见模式或从多列推断的复杂模式。
参考
[1]受限玻尔兹曼机中组合表示的出现,J. Tubiana,R. Monasson,2017)
[2]使用 K-RBM 学习多个非线性子空间、Siddhartha Chandra、Shailesh Kumar 和 CV Jawahar
我需要一种机器学习算法来识别 CSV 文件中的任何模式
你想做无监督学习。维基百科对它的定义是:
无监督机器学习是从“未标记”数据中推断出描述隐藏结构的函数的机器学习任务(分类或分类不包括在观察中)。
我将建议您在此处浏览无监督学习算法列表并使用适合您需要的算法。
如果您刚开始,那么我建议您从学习K-means 聚类算法开始。
首先,您必须对 CSV 文件的每个块进行分类,并根据当前情况对其进行标记,例如 A) 最佳情况 B) 关键。
然后使用无监督学习算法(如 SOM 或 k-means)对数据进行聚类,然后简单地对将获得的类进行分类。