如果我有一组术语,每个术语都具有与之相关的特定频率(该术语出现在固定论文语料库中的次数),那么以下显着性检验方法是否有效?
计算给定语料库中 GO 词频的中值绝对偏差 (MAD),
对于样本:
得到
使用作为阈值,高于该阈值 GO 术语被认为与给定语料库显着相关,低于该阈值 GO 术语被认为不重要。
如果我有一组术语,每个术语都具有与之相关的特定频率(该术语出现在固定论文语料库中的次数),那么以下显着性检验方法是否有效?
计算给定语料库中 GO 词频的中值绝对偏差 (MAD),
对于样本:
得到
使用作为阈值,高于该阈值 GO 术语被认为与给定语料库显着相关,低于该阈值 GO 术语被认为不重要。
我对此表示怀疑。最有可能的是,频率项的分布是高度倾斜的。在这种情况下,使用基于假设基础数据来自对称分布的阈值规则将给出高度误导性的阈值(并因此可能导致结果)。
您可以尝试使用arcsin等转换将您建议的阈值规则应用于数据的转换版本。您提出的阈值规则基于顺序统计,这意味着结果不应取决于您使用的转换,只要它是有效的转换(即输入域上的单调函数)。
我个人喜欢的另一种解决方案是使用调整后的箱线图,因为它简化了解释。