多分类建议的关联规则学习

数据挖掘 机器学习 多类分类 关联规则
2022-03-09 06:46:56

任务如下:给定一组医学症状和相关诊断的训练集,输出症状组合最可能的诊断列表。到目前为止,存在一种利用关联规则学习方法的解决方案:我们在训练数据集的属性上找到规则,并根据我们对所述规则的置信度来推断可能的诊断及其概率。

但是,由于不同属性的数量庞大,这种方法似乎无法针对大型数据集进行扩展(104) 和可能的类 (103)。因此我的问题是:关联规则是解决这个问题的可行解决方案吗?有没有其他选择?

3个回答

假设每个属性和类有很多重复,可以学习一个嵌入空间。共同出现的属性和类将被投射到附近的空间中。一个例子是亲和力加权嵌入

然后预测变成近似最近邻搜索。对于给定的一组属性,找到最近的类。一个例子是局部敏感散列

结合学习嵌入空间和近似最近邻搜索的策略非常适合预测。如果随着数据的增长,您愿意接受“近似”的更宽松定义,则搜索时间可以保持不变。

我会尝试以下两种方法,它们都同样有趣。

第一个是:k-means 聚类。原因如下:根据一组症状,我们可以尝试映射到一个诊断。此外,我们可以更改集群的数量并检查它是否提高了准确性/结果。

第二个是:推荐系统。这与关联学习密切相关。我举个例子:我们在 Netflix 上看电影,它会推荐我们可能喜欢的电影。这是基于我们之前看过哪些电影,以及其他与我们有相似品味的人看过哪些电影。我们可以在这里使用相同的逻辑。$ 具有一种症状 sss 的人进行了 xyz 诊断。如果症状与 sss 相似,他们会得到 xyz 诊断。

我希望这有帮助!

您可以尝试多元线性回归分析。这可以使用 excel(数据--> 数据分析--> 回归)来完成。基本上,该模型开发了影响一个因变量的多个变量之间的关系。在上面的例子中:

诊断 = a + b1医学症状 1 + b2医学症状 2+ .....+ e 其中,a = 方程 b1、b2、....的截距,bn = 每个变量的斜率 e = 误差范围。

阅读有关本文的更多信息:https ://www.investopedia.com/terms/m/mlr.asp