对不起,如果这太菜鸟问题,我只是一个初学者。
我有一个包含公司信息的数据集。有两种特征:财务(收入等)和一般信息(如员工人数和注册日期)
我必须预测违约的概率。而且数据有缺口:大约一半的公司根本没有财务数据。但是一般功能是 100% 填充的。
这种情况的最佳做法是什么?
如果您可以提供一些示例链接以供阅读,那就太好了。
对不起,如果这太菜鸟问题,我只是一个初学者。
我有一个包含公司信息的数据集。有两种特征:财务(收入等)和一般信息(如员工人数和注册日期)
我必须预测违约的概率。而且数据有缺口:大约一半的公司根本没有财务数据。但是一般功能是 100% 填充的。
这种情况的最佳做法是什么?
如果您可以提供一些示例链接以供阅读,那就太好了。
您应该查看“缺失值”。这本身就是一个完整的研究领域。
首先,您需要识别缺失值的类型:
(这两个是最好的情况。)
那么,你会怎么做呢?几个典型的选项: