我有许多环境变量想与一些树种数据相关联。环境变量的规模差异很大,所以我想通过计算每个变量的标准 z 分数(平均值 = 0,SD = 1)来标准化每个变量。但是,环境数据由连续变量、整数变量、有序变量和名义变量组成。我不确定如何对分类数据进行标准化。
我的主要两个问题:
在计算标准化 z 分数时,序数数据是否与连续数据相同?
计算标准化 z 分数时如何处理名义变量?
我有许多环境变量想与一些树种数据相关联。环境变量的规模差异很大,所以我想通过计算每个变量的标准 z 分数(平均值 = 0,SD = 1)来标准化每个变量。但是,环境数据由连续变量、整数变量、有序变量和名义变量组成。我不确定如何对分类数据进行标准化。
我的主要两个问题:
在计算标准化 z 分数时,序数数据是否与连续数据相同?
计算标准化 z 分数时如何处理名义变量?
在计算标准化 z 分数时,序数数据是否与连续数据相同?
不,它们不是:在处理不同测量尺度的数据时,重要的是您的分析不应使用在该测量尺度内没有意义的数学运算。对于序数数据,只有标度中的值的排名才有意义,因此您应该只使用对保持排名顺序的值编号的所有变化都不变的操作。这会计算出使用算术运算、、和的任何运算。
对于序数数据,样本均值和样本标准差对于保持排名顺序的值编号的所有变化并非不变。这意味着样本均值和样本标准差对于有序数据没有意义。因此,z 分数也毫无意义。
(注意:在某些情况下,研究人员将明显的序数数据视为区间或比率数据,这相当于断言有序类别中的差异/比率是有意义的。在这种情况下,通常存在一些争论是否合理在更高的测量级别上处理数据。)
计算标准化 z 分数时如何处理名义变量?
名义和有序变量不允许使用算术运算、、和,因此这些变量的 z 分数是没有意义的。对于名义变量,唯一有意义的度量是那些计算类别的频率/相对频率并使用操作和的度量。对于序数变量,您还可以使用操作和(按序数变量的顺序)对累积频率/相对频率进行有意义的测量。
跨特定特征执行的操作应跨所有特征执行,以确保它们具有共同的尺度,从这个意义上说,对特定特征所做的事情必须对所有特征做是正确的。
否则可以找出代表特征的值吗?
正态分布曲线的平均值,分类特征的模式,一些异常值的中位数等等,然后将变量居中就可以了
您声明您需要标准化,否则某些变量将支配其他变量。如果您想做的是计算相关性或进行回归(从您的问题看来很可能),这似乎令人惊讶。同样,如果您想使用主成分分析进行变量缩减。如果您将变量保留为原始格式,则解释系数会容易得多,因为它们对您来说是自然比例。标准化会将它们转换为不自然的标准偏差规模,并使它们取决于您有多少可变性。