我正在使用 ML 构建匹配 Alogoritm。项目是将内部客户数据与外部客户数据匹配。功能是名称、地址、城市、州和邮政编码。
我们在数据集之间创建对并计算余弦相似度,然后将所有特征对的余弦值传递给高斯混合模型。我们从 2 个集群开始,期望一个匹配集群和一个不匹配集群。但是 ML 没有构建一个匹配集群并且匹配在两个集群中。
在传递给 ML 之前,我使用 Standard scaler 和 minmax scaler ,但仍然没有得到明确的不匹配和匹配集群。如果我们增加集群,同样的事情会发生。
匹配可能是名称、地址、州、城市和 zip 或名称、地址、zip 或任何其他组合中的高余弦相似度。我们正在处理大量数据,因此我们使用 Spark ML。
我们如何才能实现最优聚类?