哪种模型可能最适合手术结果?

数据挖掘 机器学习 预测建模 模型选择
2022-03-09 04:09:07

数据科学的新手,我正在努力成为一个自我启动者,并在我的外科专科中实施高级数据分析。下面是我的数据集的描述。我知道我将不得不探索多种方法,但希望得到你认为最好的方法。我很可能会使用 R 来实现这个分析。

  • 有一个包含大约 200 名患者(行)的数据集
  • 每个患者大约有 10-15 个变量(术前和术中)
  • 每个患者都经历了非手术或手术治疗
  • 非手术治疗或手术治疗的成功取决于患者在就诊 1 年后填写的问卷。该问卷给出了他们(1)是否受益或(2)没有从手术中受益的二元结果。

我的研究问题如下:

  1. 在手术组中,我试图找出哪些变量会导致患者(1)受益与(2)不能从手术中受益,并创建一个模型可以更好地帮助预测我们可以对哪些患者进行手术(我已经遗漏了一些细节,例如患者人数、手术类型等)。
  2. 在第二项研究中,我想确定我们应该对哪些患者进行手术。换句话说,我想找出哪些术前特征使一些患者更有可能从(1)手术治疗与(2)非手术治疗中受益,在这种情况下,结果也将是问卷中的二元结果。

我为此尝试了线性和逻辑回归,但效果不是很好,因此我尝试学习更高级的模型。

临床医生更容易理解的模型更有价值,这就是我没有深入研究神经网络的原因。我感谢可以提供的任何和所有建议。另外,如果我把这个数据集扩大到 600 人,你会使用其他模型吗?我无法访问大型服务器,因此大部分操作将在我的笔记本电脑上完成,但我可以在必要时使用在线资源(Azure 等)。

谢谢大家的帮助和意见。

1个回答

问题 1:我建议您首先研究决策树,因为它们易于实现且结果易于解释。您最终将得到一个树结构,其中节点保存变量的间隔/值。在每个节点,树尝试最有效地将您的数据拆分为您的二元分类C1C2. 因此,最终,您将能够在树的顶部提取变量中最重要的特征。选择属性时“效率”的典型衡量标准是熵。

问题2:我觉得也可以用上面的方法解决。对于树的每个节点,您知道的数量C1C2分类在左边和右边。假设您在节点中的属性是“有糖尿病”您的数据(因此树)告诉您,如果该人患有糖尿病,则 110 名患者中有 100 名“失败”了手术。因此,您可以估计某些属性对您的操作成功的贡献程度,并得出结论,操作给定的人没有多大意义。

尽管如此,请始终小心您如何解释结果。您不应该尝试解释拆分小子组的属性,因为这很容易导致对现实世界行为的错误假设。