我有两个文件: Test_data - 包含数据集的特征以查找 Submission_data 的预测 - 包含两列:测试数据的索引列和对应预测值的另一列
所以,我必须对测试数据进行预测,并将预测值存储在提交文件中。
在测试数据的预处理期间,我删除了至少 50% 的特征(列)不包含值(NaN)的行:
test_data = test_data.dropna(thresh=math.ceil(test_data.shape[1]/2))
现在,如何删除提交数据框中的相应行?因为,如果我在测试数据中删除一些行,我无法对提交数据框/文件中的相应行进行预测。
问题是,有一个索引列没有唯一值(在测试数据和提交数据中)
那么,如何删除在测试数据中也被删除的提交数据中的行?
我是 ML 挑战的新手,我觉得这很有挑战性。