数据挖掘 - 多分类建议的关联规则学习 - 吾爱随笔录

多分类建议的关联规则学习

数据挖掘机器学习多类分类关联规则

2022-03-09 06:46:56

任务如下：给定一组医学症状和相关诊断的训练集，输出症状组合最可能的诊断列表。到目前为止，存在一种利用关联规则学习方法的解决方案：我们在训练数据集的属性上找到规则，并根据我们对所述规则的置信度来推断可能的诊断及其概率。

但是，由于不同属性的数量庞大，这种方法似乎无法针对大型数据集进行扩展（ $10^4$ ) 和可能的类 ( $10^3$ ）。因此我的问题是：关联规则是解决这个问题的可行解决方案吗？有没有其他选择？

3个回答

假设每个属性和类有很多重复，可以学习一个嵌入空间。共同出现的属性和类将被投射到附近的空间中。一个例子是亲和力加权嵌入。

然后预测变成近似最近邻搜索。对于给定的一组属性，找到最近的类。一个例子是局部敏感散列。

结合学习嵌入空间和近似最近邻搜索的策略非常适合预测。如果随着数据的增长，您愿意接受“近似”的更宽松定义，则搜索时间可以保持不变。

我会尝试以下两种方法，它们都同样有趣。

第一个是：k-means 聚类。原因如下：根据一组症状，我们可以尝试映射到一个诊断。此外，我们可以更改集群的数量并检查它是否提高了准确性/结果。

第二个是：推荐系统。这与关联学习密切相关。我举个例子：我们在 Netflix 上看电影，它会推荐我们可能喜欢的电影。这是基于我们之前看过哪些电影，以及其他与我们有相似品味的人看过哪些电影。我们可以在这里使用相同的逻辑。$ 具有一种症状 sss 的人进行了 xyz 诊断。如果症状与 sss 相似，他们会得到 xyz 诊断。

我希望这有帮助！

您可以尝试多元线性回归分析。这可以使用 excel（数据--> 数据分析--> 回归）来完成。基本上，该模型开发了影响一个因变量的多个变量之间的关系。在上面的例子中：

诊断 = a + b1医学症状 1 + b2医学症状 2+ .....+ e 其中，a = 方程 b1、b2、....的截距，bn = 每个变量的斜率 e = 误差范围。

阅读有关本文的更多信息：https ://www.investopedia.com/terms/m/mlr.asp

其它你可能感兴趣的问题

上一篇数百列和行上的肘部方法下一篇模型调整与模型拟合的特征顺序