使用小型数据集做什么是合理的?应对罕见病

机器算法验证 假设检验 统计能力 小样本 临床试验
2022-04-04 07:03:22

我来自诸如如何处理小型 (27) 医疗数据集之类的帖子?因为它们非常相似。

但在更广泛的背景下,在样本量非常低的罕见疾病/研究中——但有很多特征,其中我的例子——4个类的实例不超过30个(而且它们真的不平衡17-2-6-6 ,那我什至可以分组到 17-8-6)。

除了查看我们的特征/变量的数字(散点图、组图、箱线图)来尝试辨别任何潜在的生物标志物之外,还有其他选择吗?

我尝试了 PCA 以查看它们是否“聚集”以响应我的类变量(疾病/疾病状态)。但除此之外,还有描述性统计图我真的很担心,在这种低样本量的情况下,我们可以假设没有统计相关性(即使是使用非参数方法比较“均值”的 p 值——因为在非参数中,我们是而是比较排名-似乎相当冒险)。

所以,在这种情况下,即使是自举重采样也没有太大作用——我们的样本极少,而且“我们想要的所有特征”,有什么办法吗?

PD:如果没有:有没有办法向收集数据的医务人员解释——尽管如此,这是一项重要而艰巨的工作——我不能做任何远程完成/值得发表的事情?因为有时我认为他们希望我成为一个巫师。

PD2:顺便说一句,诊所的方法甚至不是为了检验一个确定的假设,他们正在尝试看看是否有任何模式/特征可以用作生物标志物。这让我的工作更加努力。

1个回答

这样的数据集对于可靠的生物标志物开发来说太小了。唯一的希望是概念验证研究,这实际上是信号存在证明研究,您必须将所有鸡蛋放在一个篮子中,并检查该篮子与结果的相关程度。篮子需要使用无监督学习(也称为数据缩减)来获得,例如,计算所有候选标记的第一个主成分。

从这个角度来看,如果你想做最简单的事情,那就是估计没有生物标志物和其他可用描述变量的结果的概率,你必须能够估计一个概率。估计单个概率所需的最小样本量,误差范围为 0.10(不是很小,顺便说一句),需要 n=96。因此,这是估计仅包含截距的预测模型的最小样本量。如果您有一个候选生物标志物是双值的(自然界中不存在二元生物标志物),并且您的最佳情况是负生物标志物值的数量等于正值的数量,您需要 n = 96*2 = 192个科目。