我有一个包含多个个人和特征的数据集。我正在研究一年中的行为(例如,获得的金钱、工作等的平均值或迭代次数)。
我的最终目标是实现一个分类器,因为我对每个人都有一个特定的特征(等于 0、1 或 2)。当我第一次尝试实现 SVM 时,结果很糟糕,因为我没有足够的数据/特征:我有太多的 1 号个体而没有足够的 0 和 2 的个体,所以我的分类器几乎总是将人们归为 1 类。因此,我尝试通过将数据分成四个季度来增加行数(即 JAN、FEV、MAR,然后是 APR、MAY、JUN,然后是 JUL、AUG、SEPT,最后是 OCT、NOV、DEC)
我想知道两件事:
- 这是个好主意吗?我是否必须对可能影响我的结果的特定假设保持谨慎?
- 如果这是一个好主意,我有一些一年中某些季度的可用数据,但有时它会丢失(例如,假设我上一个季度没有可用的“年龄”);我必须放弃这个功能吗?还是放弃最后一个季度会更明智?或者是否有可能在没有实际删除任何信息的情况下使分类器工作?