数据科学的新手,我正在努力成为一个自我启动者,并在我的外科专科中实施高级数据分析。下面是我的数据集的描述。我知道我将不得不探索多种方法,但希望得到你认为最好的方法。我很可能会使用 R 来实现这个分析。
- 有一个包含大约 200 名患者(行)的数据集
- 每个患者大约有 10-15 个变量(术前和术中)
- 每个患者都经历了非手术或手术治疗
- 非手术治疗或手术治疗的成功取决于患者在就诊 1 年后填写的问卷。该问卷给出了他们(1)是否受益或(2)没有从手术中受益的二元结果。
我的研究问题如下:
- 在手术组中,我试图找出哪些变量会导致患者(1)受益与(2)不能从手术中受益,并创建一个模型可以更好地帮助预测我们可以对哪些患者进行手术(我已经遗漏了一些细节,例如患者人数、手术类型等)。
- 在第二项研究中,我想确定我们应该对哪些患者进行手术。换句话说,我想找出哪些术前特征使一些患者更有可能从(1)手术治疗与(2)非手术治疗中受益,在这种情况下,结果也将是问卷中的二元结果。
我为此尝试了线性和逻辑回归,但效果不是很好,因此我尝试学习更高级的模型。
临床医生更容易理解的模型更有价值,这就是我没有深入研究神经网络的原因。我感谢可以提供的任何和所有建议。另外,如果我把这个数据集扩大到 600 人,你会使用其他模型吗?我无法访问大型服务器,因此大部分操作将在我的笔记本电脑上完成,但我可以在必要时使用在线资源(Azure 等)。
谢谢大家的帮助和意见。