我知道“数据中的偏差是魔鬼”,当分布高度偏斜时,最好将中值视为平均值而不是平均值,但如何确定这些硬限制。
例如:
情况1:
- 假设 X = 10,20,30,40,50,60,70
- 在这种情况下,我认为最好使用均值,它会给出非常准确的结果。
案例二:
- 假设 X = 10,20,30,40,50,60,70,7000
- 在这种情况下,我认为最好使用中位数而不是使用平均值。
案例 3:
- 假设 X = 10,20,30,400,500,600,700
- 在这种情况下,我认为最好使用 IQR(四分位间距)
但是我一直坚持如何决定这些硬性限制,即通常在哪种情况下使用哪个。
我找到了一个基于主题原则的工具,它将无上下文的样本分布作为输入,并确定平均值是接近/中等还是与零假设相反。
查找参考资料:-
- http://home.ubalt.edu/ntsbarsh/Business-stat/otherapplet/MeanTest.htm(均值检验)
- http://home.ubalt.edu/ntsbarsh/Business-stat/otherapplets/MediansTest.htm(用于中值测试)
我真正在寻找的是一个很好的答案,它说明了如何得出这些结论。