我有一个具有分类变量class的数据集。我正在尝试解决回归问题
我不明白我是否应该在整个数据集上构建模型并将变量类视为输入变量之一,或者我应该为每个类构建一个完全不同的模型。
什么是可以帮助我在两种方法之间做出决定的一般规则。
这是我的数据的样例
+------------+----+-----+-----------------+
| Class | X1 | X2 | Speed |
+------------+----+-----+-----------------+
| Class1 | 12 | 123 | 10 |
| Class2 | 14 | 120 | 32 |
| Class3 | 15 | 34 | 12 |
| . | . | . | . |
| . | . | . | . |
| . | | | |
| Class 300 | 23 | 13 | 45 |
+------------+----+-----+-----------------+
Class是输入分类变量,我有大约 300 个类。输出变量是Speed。我正在尝试使用变量Class, X1,来预测速度X2。
我应该为每个Class单独建立一个模型。所以当我知道输入类型是Class1我会选择为Class1. 当输入类型是Class2我将使用模型构建Class2等等。变量中的值Class也可以重复含义Class1可以出现 4 次,Class2可以出现 8 次等
我在想的另一种方法是将Class自己作为一个变量包含在内,然后只构建一个模型。
我不知道哪个是正确的方法