为什么在每个层的数据集中有足够数量的实例很重要?

数据挖掘 Python 熊猫 预处理
2022-02-28 06:44:07

收入中位数直方图

如图1所示,大多数收入中值集中在20,000美元至50,000美元之间,但一些收入中值远远超过60,000美元。

我不明白为什么 Housing['median_income'] 必须除以 1.5 背后的解释

 housing['income_cat'] = np.ceil(housing['median_income'] / 1.5)

说明 - 在数据集中为每个层提供足够数量的实例非常重要,否则对层重要性的估计可能会出现偏差。

有人可以帮我理解解释,为什么它只有 1.5 ?根据解释,为什么当每个类别都没有足够的实例时,对层重要性的估计会有偏差?

1个回答

让我们举一个例子,你试图评估一家公司的平均收入。假设公司总共有 100 名员工,他们属于两个阶层(70 名管理人员和 30 名技术人员),管理人员的平均薪酬高于技术人员。

您是调查员:由于资源限制,您可以对随机选择的任意 20 个人进行调查。

案例 1:您从 100 名员工中随机抽样,最终得到 10 名管理人员和 10 名技术主管。您将获得偏向技术主管的平均收入估计值。换句话说,您对技术主管的收入的重视/代表比在人口中的实际代表要高。

同样,在其他尝试中:案例 2:您从 100 名员工中随机抽样,最终得到 17 名管理人员和 3 名技术主管。您将得到一个偏向于管理人员的平均收入估计值。

以上样本均存在偏差,不代表总体。因此,当我们在抽样之前确定了层级时,应该进行分层抽样。例如。对 70 名管理人员中的 14 名和 30 名技术人员中的 6 名进行随机抽样。

在您给定的住房和收入数据示例中,收入规模缩小了 1.5 倍,以便为相同的 bin 宽度创建更少的收入类别。任何其他大于 1 的因素也可用于确保每个层具有相当数量的实例。