找到正确的问题以提高分类的准确性

人工智能 机器学习 分类 统计人工智能
2021-11-05 18:31:34

假设我有一份来自我医院的 10 万个医疗案例的清单,每一行 = 有症状(如发烧异味疼痛等)的患者,我的标签是医疗状况,如头部创伤癌症等。

病人过来说“我发烧了”,我需要根据症状来预测他的身体状况。根据我的数据集,我知道发烧和呕吐都符合条件X所以我想问他是否在呕吐以增加我分类的确定性。

找到正确问题的最佳算法方法是什么(从我的历史数据集中生成问题)。我考虑过尝试对这些功能进行主动学习,但我不确定这是正确的方向。

2个回答

在某种意义上,您尝试解决的问题可以被视为特征选择问题。如果您只使用这些词来查找文学作品,那么您将找不到您要寻找的东西。一般来说,“特征选择”只是指您已经拥有大量特征的问题,而您只是决定选择保留哪些特征以及丢弃哪些特征(因为它们没有提供信息或者您不知道) '没有处理能力来尝试使用所有功能进行训练)。

我建议四处寻找“功能选择”和“成本敏感”的组合。这是因为,在您的情况下,选择功能会产生成本;对于某些特征,获取值可能很昂贵。搜索此组合会导致您看起来很有趣的出版物,例如:

由于我从未使用过这些技术,因此我无法亲自担保任何这些技术,但这些论文看起来确实与您的问题相关。


当您四处寻找更多文献时,“成本”、“基于成本”、“预算”之类的术语至关重要。如果你不包括这些,你只会得到关于以下问题的论文:

  • 特征选择:给定一组特征/列,我将在所有样本/实例/行中使用哪些?
  • 特征提取:给定数据(通常没有明确的人为定义的特征,如图像、声音等),我将如何从中提取相关特征?
  • 主动学习:给定一堆没有标签但已经分配特征值的样本,我希望哪一个是预言机/人类专家/等等。看看,以便他们能告诉我真正的标签是什么?

这些问题似乎都与您的情况无关。主动学习可能有点有趣,因为它试图找出哪些值得学习,而你的问题是哪些值得学习。那里似乎确实存在联系,主动学习技术可能在某种程度上能够激发解决您问题的技术,但仅此而已;启发,如果没有额外的工作,它们可能不会 100% 直接适用。

特征提取

Patterson 和 Gibson 的Deep Learning, A Practitioner's Approach,O'Reiley,2017 年指出,“卷积神经网络 (CNN) ... 始终是图像分类的顶级竞赛”,这与我们在实验室的经验是一致的。如果你的数据是多维的,疼痛是从一到十,发烧是度数,气味可能是血液成分的结果,可以在实验室报告中量化,你可以有一个可以治疗的超立方体就像电影中的帧一样。电影学习在ℝ 4中,第三个是帧索引,第四个是样本索引。通过主观疼痛、数字温度计温度和三种血液成分浓度,您有 {P, T, C 1 , C 2 , C 3} 并在ℝ 6中学习您的 CNN 设计。

选择输入通道

提出 100 个问题并采集 10 个血液检测板可能令人望而却步。因此,您需要将来自有限提问和面板的所有数据填充到一个超立方体中,并找到类似地从稀疏数据输入中提取特征的内容。然后,从输入到特征层的加权将识别可以从中提取最重要特征的问题。通过在学术文章中搜索“特征提取稀疏数据”,将提供大量选项。

基于使用 K-means 和支持向量机算法混合的特征提取的乳腺癌诊断,B Zheng、SW Yoon、SS Lam - 应用专家系统,2014 - Elsevier可能特别有趣,考虑到共同领域。

结果分析

以上是一种有限的方法,因为循环没有关闭。只有当治疗结果用于产生标签或实时(数月或数年)强化时,系统才会产生有意义的优化。针对这个特定问题的无监督学习不太可能对治疗效果产生任何显着改善。