考虑以下数据集。
| Area | Job Type | Complete |
-------------------------------
| AAA | Install | N |
| AAB | Repair A | Y |
| OOC | Repair C | Y |
| LCX | Cease | N |
-------------------------------
我正在使用 JavaScript(开始进入 Tensorflow.js 以及其他 ML 算法和理论。)并且我正在努力寻找合适的 ML 方法来处理它。可能有超过 100 个区域和超过 15 种 Job Type,但 Complete 只能是 Y/N。
我正在考虑为每个案例分配一个数字,如下所示
AAA -> 1 | Install -> 1 | Y -> 1
AAB -> 2 | Repair A -> 2 | N -> 0
OOC -> 3 | Repair C -> 3 |
LCX -> 4 | Cease -> 4 |
... -> x |
这可行吗?它会工作吗?
我想给它另一个案例并返回该案例发生的百分比。我曾尝试使用朴素贝叶斯分类器并取得了一些成功。
-------------------------------
| LCX | Cease | 10% |
-------------------------------
这只是一个小样本,我还想包括其他 x,它们是浮点数和其他字符串值的混合。整个主要数据集包含超过 4000 万个条目和 40 多个可能的列,这可能是影响“已完成”的一个因素,因此有大量的训练数据可供使用!
最好的方法是您推荐哪种方法?