是否有机器学习算法可以找到相似的销售模式?

人工智能 机器学习 无监督学习 线性回归 模式识别 k-均值
2021-10-31 06:36:29

我有一个数据集如下

在此处输入图像描述

(并且该表扩展到包括公司 4-149 的额外 146 列)

与我的公司相比,是否有一种算法可以有效地用于从其他公司找到类似的销售模式?

我曾想过使用 k-means 聚类,但由于我在这里与 150 家公司打交道,它可能会变得有点混乱,而且我认为线性回归在这里不起作用。

2个回答

如果我理解正确,您希望找到与您的模式相似的公司。

我将从衡量cosine similarity贵公司与其他公司之间的情况开始。

使用 Python 真的很容易,例如:

In [21]: from sklearn.metrics.pairwise import cosine_similarity

In [22]: cosine_similarity([[1,4,2,6], [1,9,5,4]])
Out[22]:
array([[1.        , 0.84794633],
       [0.84794633, 1.        ]])

请注意,如果销售规模对您很重要,这不是正确的方法,因为余弦相似度是幅度不变的:

In [23]: from sklearn.metrics.pairwise import cosine_similarity

In [24]: cosine_similarity([[1,4,2,6], [10,90,50,40]])
Out[24]:
array([[1.        , 0.84794633],
       [0.84794633, 1.        ]])

在将您的数字标准化为比例之后,我会推荐一种层次聚类算法。然后聚类应该能够识别相似的模式。根据您进行切割的级别,您可以决定需要多少个集群。

Kaufman, L., & Roussew, PJ (1990) 是关于这个主题的一个很好的资源。“在数据中查找组 - 聚类分析简介”。约翰威利父子