在使用分类编码时,我看到一些作者使用任意数值变换,而另一些作者使用二进制变换。例如,如果我有一个值为 A、B 和 c 的特征向量。第一种方法将 A、B 和 C 分别转换为 1,2 和 3 等数值,其他研究使用 (1,0,0)、(0,1,0) 和 (0,0,1)。
第一种方法和第二种方法有什么区别?
我能想到的唯一区别是,如果你使用二进制值,训练/测试数据的大小将根据你有多少值线性增加,这可能会降低性能,而第一个将保持大小不变.
这些方法中的任何一种都会影响您的机器学习模型(或分类器)的准确性吗?