机器算法验证 - 使用小型数据集做什么是合理的？应对罕见病 - 吾爱随笔录

但在更广泛的背景下，在样本量非常低的罕见疾病/研究中——但有很多特征，其中我的例子——4个类的实例不超过30个（而且它们真的不平衡17-2-6-6 ，那我什至可以分组到 17-8-6）。

除了查看我们的特征/变量的数字（散点图、组图、箱线图）来尝试辨别任何潜在的生物标志物之外，还有其他选择吗？

我尝试了 PCA 以查看它们是否“聚集”以响应我的类变量（疾病/疾病状态）。但除此之外，还有描述性统计图我真的很担心，在这种低样本量的情况下，我们可以假设没有统计相关性（即使是使用非参数方法比较“均值”的 p 值——因为在非参数中，我们是而是比较排名-似乎相当冒险）。

所以，在这种情况下，即使是自举重采样也没有太大作用——我们的样本极少，而且“我们想要的所有特征”，有什么办法吗？

PD：如果没有：有没有办法向收集数据的医务人员解释——尽管如此，这是一项重要而艰巨的工作——我不能做任何远程完成/值得发表的事情？因为有时我认为他们希望我成为一个巫师。

PD2：顺便说一句，诊所的方法甚至不是为了检验一个确定的假设，他们正在尝试看看是否有任何模式/特征可以用作生物标志物。这让我的工作更加努力。