我有一组样本,我假设其中有 2 个确定的子集。我将它们的值绘制在直方图中,发现有两种不同的模式,如下图所示。
我的问题是如何区分两组。即如何选择区分两个子集的值?
我有一组样本,我假设其中有 2 个确定的子集。我将它们的值绘制在直方图中,发现有两种不同的模式,如下图所示。
我的问题是如何区分两组。即如何选择区分两个子集的值?
我假设您正在谈论遗传性肾发育不良中的新生儿行为评估量表值。
我经常在医学研究中看到,医生希望仅仅基于测量值的分布,对他们的研究结果进行基于临界值和简单阈值的解释。然而实践和应用通常需要高阳性预测值或高阴性预测值,因此必须考虑未来测试人群的特征。我的观点是,即使现在您只想“区分两组”,您可能希望在未来以某种方式应用它,因此您可能希望找到最佳阈值,优化成本、风险和收益(生存、生活质量等)在实际环境中。所以我建议你在你的应用程序中考虑这些。
如果您愿意假设总体具有相同的方差,您可以基本上使用 LDA 而没有正态性假设(又名 Fisher 方法或 Fisher 判别函数)。
如果没有这个假设,您可以尝试一种 EM 算法,这就是 Matt 建议的间接方法,因为这将是一种混合模型方法。