我应该使用多大的数据集来构建统计模型?

机器算法验证 数理统计 多重回归 采样 推理
2022-03-21 14:55:33

我正在建立一个房屋销售价格的统计模型。我正在得出推论并试图预测房屋的价格,就好像它在 2021 年售出一样。我正在使用来自伊利诺伊州库克县的 600k+ 行数据集。但是,大约有 40k 行是可用的,其余的包含太多空值,无法使用。LON 和 LAT 坐标可用于每一行。我可以使用 google API 从坐标中提取地址和邮政编码,然后使用带有 MLS API 的地址来检索丢失的信息。这可能会使 200k+ 行可用。

40k+ 行是否足以从初始 600k+ 行数据集中进行统计建模?

您实际上需要多少行?

1个回答

您通常应该尽可能填写缺失的数据

虽然 40K+ 行肯定是一个庞大的数据集,但这里的重要问题不是数据集的大小,而是数据中的缺失值是否“可忽略”的问题。当我们有一个包含缺失值的大型数据集时,我们建议仅使用那些没有缺失值的条目,这称为“完整案例分析”完整案例分析的危险在于,数据中条目的缺失可能与分析中的一个或多个变量系统地相关,在这种情况下,忽略具有缺失数据的记录将使分析产生偏差(有时严重)。实际上,缺失数据很少被忽略,尤其是在它影响整个数据集中大部分记录的情况下。

处理缺失数据是一项极其复杂的工作,而这方面的统计理论和方法也相当先进。处理缺失数据的适当方法通常涉及“缺失”模式的显式统计建模或使用显式或隐式模型对缺失值进行多重插补。这既困难又耗时,而且总是伴随着一些难以凭经验检验的建模假设。即使使用最好的方法,大量缺失数据通常也会导致推论高度不确定或对建模假设不可靠。出于这个原因,如果您有一种经济高效的调查方法可以让您填写大量缺失的数据,那么通常值得这样做。拥有更好、更完整、

因此,虽然 40K+ 数据点已经很多,但我建议您采取建议的行动,尽可能多地填写缺失的数据。增加(完整案例)数据集的大小是这样做的一个小优势,但更大的优势是,您将减少由于数据以与对你的分析感兴趣。