您通常应该尽可能填写缺失的数据
虽然 40K+ 行肯定是一个庞大的数据集,但这里的重要问题不是数据集的大小,而是数据中的缺失值是否“可忽略”的问题。当我们有一个包含缺失值的大型数据集时,我们建议仅使用那些没有缺失值的条目,这称为“完整案例分析”。完整案例分析的危险在于,数据中条目的缺失可能与分析中的一个或多个变量系统地相关,在这种情况下,忽略具有缺失数据的记录将使分析产生偏差(有时严重)。实际上,缺失数据很少被忽略,尤其是在它影响整个数据集中大部分记录的情况下。
处理缺失数据是一项极其复杂的工作,而这方面的统计理论和方法也相当先进。处理缺失数据的适当方法通常涉及“缺失”模式的显式统计建模或使用显式或隐式模型对缺失值进行多重插补。这既困难又耗时,而且总是伴随着一些难以凭经验检验的建模假设。即使使用最好的方法,大量缺失数据通常也会导致推论高度不确定或对建模假设不可靠。出于这个原因,如果您有一种经济高效的调查方法可以让您填写大量缺失的数据,那么通常值得这样做。拥有更好、更完整、
因此,虽然 40K+ 数据点已经很多,但我建议您采取建议的行动,尽可能多地填写缺失的数据。增加(完整案例)数据集的大小是这样做的一个小优势,但更大的优势是,您将减少由于数据以与对你的分析感兴趣。