假设我正在处理无法从源更改架构的第 3 方供应商错误日志文件。我正在尝试预测一个标签。
一旦收集了日志,我就拥有了我所需要的一切,以不同的日志格式,与其他的相比,每个丢失的随机信息。
-------------------------------------------------------
| vendor | variable_one | variable_two |variable_three|
-------------------------------------------------------
| 1 | - |"some string" | NULL |
-------------------------------------------------------
| 3 | GET |"some string" | 1270 |
-------------------------------------------------------
| ... | POST | NULL | 760 |
-------------------------------------------------------
即使经过所有预处理和数据转换,将标签更改为二进制和分类值等。经过清洗、特征选择和训练。对模型进行训练、评估和测试。(标签未显示)
-------------------------------------------------------
| vendor | variable_one | variable_two |variable_three|
-------------------------------------------------------
| 1 | GET |"some string" | 0 |
-------------------------------------------------------
| 3 | GET |"some string" | 1270 |
-------------------------------------------------------
| ... | POST | "" | 760 |
-------------------------------------------------------
问题是:
当我回去通过模型发送我的供应商日志时,我仍然在发送它,可能会丢失已更改或选择作为模型特征的值。
- 那么模型就没有用了吗?
- 数据清理中所做的转换是否需要应用于上游某处通过的每个日志条目?
- 假设模型只知道“漂亮漂亮”的清理数据,我发送带有缺失值的日志条目。模型是在做出假设还是做出不太准确的预测?