我正在研究一个分类问题,我发现我的数据有很多异常值,这导致我的识别率降低。我尝试过重新缩放、标准化技术,如 min max、box cox 甚至对数转换。我正在考虑从箱形图中消除异常值,但恐怕我可能会消除定义模型所需的有用特征/数据。
有没有关于如何处理此类案件的建议。进一步的数据分析表明,我的数据构成的特征属于不同的过程,如 Web 应用程序、应用程序。我根据流程分离了数据,我确实看到流程的巨大变化导致了不同的准确度,范围为 60-95%
有关如何处理此类情况的任何提示?最后,我希望我的分类器进行分类,而与流程类型无关。那么对于我当前的问题,这是否意味着我定义的功能不够好,或者我还能做些什么?