数据挖掘 - 为什么在每个层的数据集中有足够数量的实例很重要？ - 吾爱随笔录

数据挖掘 Python 熊猫预处理

2022-02-28 06:44:07

如图1所示，大多数收入中值集中在20,000美元至50,000美元之间，但一些收入中值远远超过60,000美元。

我不明白为什么 Housing['median_income'] 必须除以 1.5 背后的解释

 housing['income_cat'] = np.ceil(housing['median_income'] / 1.5)

说明 - 在数据集中为每个层提供足够数量的实例非常重要，否则对层重要性的估计可能会出现偏差。

有人可以帮我理解解释，为什么它只有 1.5 ？根据解释，为什么当每个类别都没有足够的实例时，对层重要性的估计会有偏差？

1个回答

让我们举一个例子，你试图评估一家公司的平均收入。假设公司总共有 100 名员工，他们属于两个阶层（70 名管理人员和 30 名技术人员），管理人员的平均薪酬高于技术人员。

您是调查员：由于资源限制，您可以对随机选择的任意 20 个人进行调查。

案例 1：您从 100 名员工中随机抽样，最终得到 10 名管理人员和 10 名技术主管。您将获得偏向技术主管的平均收入估计值。换句话说，您对技术主管的收入的重视/代表比在人口中的实际代表要高。

同样，在其他尝试中：案例 2：您从 100 名员工中随机抽样，最终得到 17 名管理人员和 3 名技术主管。您将得到一个偏向于管理人员的平均收入估计值。

以上样本均存在偏差，不代表总体。因此，当我们在抽样之前确定了层级时，应该进行分层抽样。例如。对 70 名管理人员中的 14 名和 30 名技术人员中的 6 名进行随机抽样。

在您给定的住房和收入数据示例中，收入规模缩小了 1.5 倍，以便为相同的 bin 宽度创建更少的收入类别。任何其他大于 1 的因素也可用于确保每个层具有相当数量的实例。

其它你可能感兴趣的问题