我正在从事一个机器学习项目,该项目涉及从多个可能重叠的类/组中提取的不同蛋白质(样本)的统计分析(以及后来的区分性分类),所有这些都来自更大的背景群体(所有哺乳动物蛋白质) .
我有一个我为每个单独的蛋白质计算的特征列表,然后作为分类的基础(使用机器学习)以后对每个类别/组的蛋白质。(这些特征是连续的和数字的,但可能非常不同,没有理由假设基础分布是正态分布或相关分布)。
我想对“原始”计算的特征值进行归一化和居中以供以后训练。通过 Z 分数进行归一化然后居中 [0,1] 的标准方法似乎不合适,因为没有理由假设底层分布是正常的(我有数百种不同的特征 - 频率计数、二元计数、物理化学属性值等') 。
我听说过“稳健的统计测量”,并想到首先对所有特征进行归一化(使用中值),然后将scikit的归一化+居中应用于“中值归一化”特征集,但我不知道如果这是有道理的,或者将保留原始数据中的差异。
(注意 - 我还预计不同特征和属性会出现少量显着异常值,因此在这方面使用中位数也很有吸引力)。这有意义吗?有没有更好的方法在所有组之间进行归一化(而不是仅仅使用特征的原始分数)?
