我正在研究工资表,并希望收到有关处理工资数据的建议。
客观的
我的兴趣是估算组织中不同层级对应的薪水。
方法
如何装箱
我考虑过使用分位数:知道组织中有 10 个级别(例如总裁、主管、...、工人),我想估算相应级别的平均工资。
我想使用分位数;我在看 pandas 的文档:
- https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.qcut.html#pandas.qcut
- https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.cut.html#pandas.cut
哪个选择更合适?
描述观察
我的分布在某一点上似乎是线性的,然后似乎遵循指数曲线:
你能建议近似分位数的最佳方法吗?
我怀疑是否针对整个分布计算分位数,或者是否推断出两个分布以最好地反映观察结果。
我考虑将一个分布提取为低于x 个标准差的数据点的集合,以及大于x 个标准差的点的集合。
那么,我将分别拥有这些分布:
(描述较低的薪级,在我看来是线性的)
和
(描述更高的薪水,在我看来是指数级的)
非常感谢您对分析的建议。
关于样本的注意事项
请记住,每个值的报告频率都不同(对于较低的工资表,有更多的报告,这是有道理的,因为有更多的营业额)。
我应该考虑估计错误吗?


