当某些特征有缺失值时如何进行预测?

人工智能 机器学习 预言 数据预处理 特征工程
2021-10-23 17:36:59

对不起,如果这太菜鸟问题,我只是一个初学者。

我有一个包含公司信息的数据集。有两种特征:财务(收入等)和一般信息(如员工人数和注册日期)

我必须预测违约的概率。而且数据有缺口:大约一半的公司根本没有财务数据。但是一般功能是 100% 填充的。

这种情况的最佳做法是什么?

如果您可以提供一些示例链接以供阅读,那就太好了。

1个回答

您应该查看“缺失值”。这本身就是一个完整的研究领域。

首先,您需要识别缺失值的类型:

  1. 它们可以完全随机丢失。
  2. 它们是否丢失本身就是一个有用的功能,应该被视为一个自己的类。

(这两个是最好的情况。)

  1. 它们是否丢失取决于基础(未知)值。例如,如果温度过高,温度计可能偶尔会失效。在您的情况下,某些类型的公司可能更有可能不分享他们的信息。
  2. 数据分析师可能会专门丢失信息以误导您。这是最糟糕的情况,您无能为力。

那么,你会怎么做呢?几个典型的选项:

  1. 剔除所有缺失数据的行:我们没有足够的关于这些公司的信息。
  2. 丢弃所有缺失数据的列:这个字段不能可靠地测量,我们不应该使用它。
  3. 尝试猜测缺失值。如果丢失的数据量很小,则可以这样做。您可以根据非缺失数据训练预测模型,或者填写该类型行的中位数,或者填写“最接近”匹配行的值。这可能很危险。
  4. 有些算法可以处理缺失数据。查看模型和算法的文档,了解它们如何处理缺失值。