你问了一个棘手的问题,但我有点惊讶的是,向你提出的各种线索却很少受到关注。我对所有这些都投了赞成票,因为我认为它们基本上是有用的回应,尽管在它们的实际形式中,它们需要进一步的书目工作。
免责声明:我从来不需要处理这样的问题,但我经常不得不公开可能与医生的先验信念不同的统计结果,我从解开他们的推理路线中学到了很多东西。另外,我有一些从人工智能和认知科学的角度教授人类决策/知识的背景,我认为你问的问题与专家如何根据它们的属性和对他们的关系有共同的理解。
从你的问题中,我注意到两个有趣的断言。第一个与专家如何评估两组测量之间的相似性或差异有关:
我并不特别关心属性 X 和 Y 之间是否存在某种关系。我关心的是医生是否认为 X 和 Y 之间存在某种关系。
第二个,
我如何预测他们认为的相似性是什么?他们看某些属性吗?
看起来它在某种程度上被前者所包含,但它似乎与最显着的属性更密切相关,这些属性允许在感兴趣的对象之间进行清晰的区分。
对于第一个问题,我会回答:好吧,如果任何两个主题之间没有特征或客观关系,那么构成假设主题的理由是什么?相反,我认为问题应该是:如果我只有有限的资源(知识、时间、数据)来做出决定,我该如何优化我的选择?对于第二个问题,我的回答是:虽然看起来和你之前的断言有部分矛盾(如果完全没有关系,就暗示可用的属性没有歧视性或无用),但我认为大多数时候这是一个有意义的属性组合,而不仅仅是给定个人如何在单个属性上得分。
让我谈谈这两点。人类具有有限或有限的理性,并且可以在不检查所有可能的解决方案的情况下做出决定(通常是正确的决定)。与溯因推理也有密切联系。众所周知,个体判断之间存在一定差异,甚至同一专家在两次判断之间也存在差异。这就是我们对可靠性研究感兴趣的地方。但是你想知道这些专家是如何阐述他们的判断的。在认知心理学中有大量的论文,特别是关于相对判断比绝对判断更容易和更可靠的事实那些。医生的决定在这方面很有趣,因为他们能够用有限的信息做出“好的”决定,但同时他们受益于不断增长的内部知识库,他们可以从中得出预期的关系(外推) . 换句话说,他们有一个内置的推理(假设是假设演绎)机制,并从那里的经验或实践中积累积极的证据或反事实。复制这种推理能力和声明性知识的使用是 70 年代几个专家或生产规则系统的目标,其中最著名的是MYCIN,以及更普遍的 1946 年早期的人工智能(我们可以在人工系统上重现在人类身上观察到的智能行为吗?)。语音的自动处理、问题解决、视觉形状识别现在仍然是活跃的项目,它们都与识别显着特征及其关系以做出适当的决定有关(即,两种模式应该在多大程度上被判断为两个不同的生成过程?)。
总而言之,我们的医生能够从有限数量的数据中得出最佳推论,以补偿仅作为个体差异(在患者层面)的副产品而产生的噪声。因此,统计学和概率论有着明确的联系,问题是什么有意识或潜意识的方法可以帮助医生形成他们的判断。语义网络(SN)、信念网络和决策树都与您提出的问题相关。你引用的那篇论文是关于使用本体作为形式判断的基础,但它只不过是对SNs的扩展,很多项目都是朝这个方向发起的(我可以想到Gene Ontology用于基因组研究,但许多其他研究存在于不同的领域)。
现在,看一下以下诊断类别的层次分类(大致取自 Dunn 1989,第 25 页):

现在来看看ICD分类;我认为离这个示意图分类不远了。精神障碍被组织成不同的类别,其中一些彼此更接近。使它们相似的是它们在任何患者中的表达(表型)的接近性,以及它们在躯体/心理病因学上具有一些相似性的事实。评估两名医生是否会做出相同的诊断是评估者间协议的典型示例研究中,要求两名精神科医生将几名患者中的每一个置于相互排斥的类别中。层次结构应该反映在每个医生之间的分歧上,也就是说,他们可能不同意诊断类别(叶子)之间的更精细区分,但如果他们在失眠和精神分裂症之间存在分歧,那就有点令人不安了。 . 这两位医生如何决定给定患者属于哪个类别只不过是一个聚类问题:给定一组不同属性的观察值,两个人有多大可能足够相似,以至于我决定他们共享相同班级成员?
现在,一些属性比其他属性更有影响力,这正是在潜在类分析中赋予给定属性的权重所反映的(可以认为是k-means 等聚类方法的概率扩展),或者随机森林中的可变重要性。我们需要把东西放进盒子里,因为乍一看它更简单。问题是事物经常在某种程度上重叠,因此我们需要考虑不同级别的分类。事实上,聚类分析是实际 DSM 类别的核心,许多论文实际上转而将一名患者分配到特定的综合征类别,基于他对一系列神经心理学评估的反应概况。这只是看起来像子类型化方法;每次,我们都试图通过添加例外规则或额外的相关症状或损害来完善初步确立的诊断类别。
一个相关的主题是决策树,这是迄今为止医生最了解的统计技术。大多数时候,他们描述了一系列嵌套的布尔断言(你有喉咙痛吗?如果是,你有温度吗?等等;但是看一个公共流感诊断树的例子),据此我们可以形成关于患者接近度的决定(即,相似的患者在构建树时考虑的属性有多相似——它们越接近,它们最终出现在同一片叶子中的可能性就越大)。关联规则和 C4.5 算法完全依赖于相同的思想。在一个相关的话题上,有病人规则归纳法(PRIM)。现在很明显,我们必须区分所有那些有效利用大量数据并结合 bagging 或 boosting 来弥补模型脆弱性或过度拟合问题的方法,以及无法自动处理大量数据的医生。和算法的方式。但是,对于少量到中等数量的描述符,我认为它们毕竟表现得相当好。
不过,是或否的方法并不是灵丹妙药。在行为遗传学和精神病学中,人们普遍认为分类方法可能不是最好的方法,常见疾病(学习障碍、抑郁症、人格障碍等)反映的是一个连续体,而不是相反价的类别。没有人是完美的!
总之,我认为医生实际上拥有一种内化的推理引擎,允许他们将患者分配到不同的类别中,这些类别的特点是对可用证据进行加权组合;换句话说,他们能够以有效的方式组织他们的知识,并且这些内部表征和他们共享的关系可能会在整个经验中得到增强。基于案例的推理可能也会在某个时候发挥作用。所有这些都可能会受到 (a) 使用新可用数据的修订(我们不只是充当确定的二元分类器,并且能够在我们的决策中纳入新数据),以及 (b) 过去的经验产生的主观偏见或错误的自制关联规则。但是,它们很容易出错,因为每个决策系统...
反映这些步骤的所有统计技术——决策树、bagging/boosting、聚类分析、潜在聚类分析——似乎与您的问题相关,尽管它们可能难以在单个决策规则中实例化。
以下是一些可能会有所帮助的参考资料,作为医生如何做出决定的第一步:
- 用于临床医生确定适当放射成像检查的临床决策支持系统
- Grzymala-Busse,JW。从示例中选择机器学习算法。基础信息学18 (1993), 193–207
- Santiago Medina, L, Kuntz, KM 和 Pomeroy, S.怀疑患有脑肿瘤的头痛儿童:诊断策略的成本效益分析。儿科108 (2001), 255-263
- 建立更好的非创伤性头痛诊断算法
- Jenkins, J, Shields, M, Patterson, C 和 Kee, F.哮喘恶化的决策:临床判断分析。Arch Dis Child 92 (2007), 672–677
- Croskerry, P.实现临床决策质量:认知策略和偏差检测。Acad Emerg Med 9(11)(2002),1184-204。
- Cahan、A、Gilon、D、Manor、O 和 Paltiel。概率推理和临床决策:医生是否高估了诊断概率?QJM 96(10) (2003), 763-769
- Wegwarth, O, Gaissmaier, W 和 Gigerenzer, G.医生和实习医生的智能策略:医学启发式。医学教育 43 (2009), 721–728