澄清一下,当我指的是汇总统计数据时,我指的是平均值、四分位数中位数范围、方差、标准偏差。
在总结分类或定性的单变量时,考虑名义和有序情况,找到它的均值、中位数、四分位范围、方差和标准差是否有意义?
如果是这样,它与你总结一个连续变量有什么不同,如何?
澄清一下,当我指的是汇总统计数据时,我指的是平均值、四分位数中位数范围、方差、标准偏差。
在总结分类或定性的单变量时,考虑名义和有序情况,找到它的均值、中位数、四分位范围、方差和标准差是否有意义?
如果是这样,它与你总结一个连续变量有什么不同,如何?
一般来说,答案是否定的。但是,有人可能会争辩说您可以取序数数据的中位数,但您当然会将类别作为中位数,而不是数字。中位数平均划分数据:一半在上面,一半在下面。序数数据仅取决于顺序。
此外,在某些情况下,可以将序数作为粗略的区间级别数据。当对序数数据进行分组时,情况确实如此(例如,经常以这种方式询问有关收入的问题)。在这种情况下,您可以找到一个精确的中位数,并且您可以逼近其他值,尤其是在指定了下限和上限的情况下:您可以假设每个类别中的某种分布(例如均匀分布)。另一种可以设为区间的有序数据的情况是,当级别被赋予数字等价物时。例如:从不 (0%)、有时 (10-30%)、大约一半时间 (50%) 等等。
(再次)引用大卫考克斯的话:
没有常规的统计问题,只有有问题的统计程序
如前所述,均值、标准差和铰链点对分类数据没有意义。铰链点(例如,中位数和四分位数)可能对序数数据有意义。您的标题还询问应该使用哪些汇总统计数据来描述分类数据。通过计数和百分比来表征分类数据是标准的。(您可能还希望在百分比周围包含 95% 的置信区间。)例如,如果您的数据是:
"Hispanic" "Hispanic" "White" "White"
"White" "White" "African American" "Hispanic"
"White" "White" "White" "other"
"White" "White" "White" "African American"
"Asian"
你可以这样总结它们:
White 10 (59%)
African American 2 (12%)
Hispanic 3 (18%)
Asian 1 ( 6%)
other 1 ( 6%)
如果您有名义变量,则没有排序或距离函数。那么,您如何定义您提到的任何摘要统计信息?我不认为你可以。四分位数和范围至少需要排序,均值和方差需要数字数据。我认为条形图和饼图是总结非序数定性变量的正确方法的典型示例。
模式仍然有效!这不是一个重要的汇总统计吗?(最常见的类别是什么?)我认为中值建议作为统计数据几乎没有价值,但模式确实如此。
计数不同也会很有价值。(你有多少个类别?)
您可以创建比率,例如(最常见的类别)/(最不常见的类别)或(#1 最常见的类别)/(#2 最常见的类别)。也(最常见的类别)/(所有其他类别),如 80/20 规则。
您还可以为您的类别分配数字,并使用所有常见的统计数据发疯。AA=1、Hisp=2 等。现在您可以计算均值、中位数、众数、标准差等。