我从来没有真正找到任何关于如何处理任何类型分类器输入的“不存在”数据的好的文本或示例。我已经阅读了很多关于缺失数据的内容,但是对于与多变量输入相关的不能或不存在的数据可以做些什么。我知道这是一个非常复杂的问题,并且会因使用的培训方法而异...
例如,如果试图用准确的数据预测几位跑步者的单圈时间。在众多输入中,可能的变量包括:
- 输入变量 - 首次参赛者 (Y/N)
- 输入变量 - 上一圈时间(0 - 500 秒)
- 输入变量 - 年龄
- 输入变量 - 高度。. . 更多输入变量等
& 输出预测器 - 预测单圈时间(0 - 500 秒)
“2.Previous laptime”的“缺失变量”可以通过多种方式计算,但“1. First time runner' 总是等于 N 。但是对于第一次跑步者的“不存在的数据”(其中“1.第一次跑步者”= Y)我应该为“2. 上一圈”?
例如分配'2。以前的单圈时间为 -99 或 0 可以显着扭曲分布,使其看起来像一个新的跑步者表现良好。
我目前的训练方法一直在使用逻辑回归、SVM、NN 和决策树