我是数据科学的初学者,但我尝试为自己的银行交易构建分类器,总共收集了大约 50.000 个。我的目的是在交易声明和交易类型之间建立一种关系。例如:
声明:在 Wallmart 使用卡号 XXXXXX 付款。
类型/标签:在超市购买
为此,我用 80% 的语句(之前标记)训练了我的模型,并且达到了非常高的准确度(85%)。之后我意识到有些不对劲,文本中有很多陈述:
声明:用卡号 XXXXX 在 _______ 付款。
因为当有人在超市购买产品时,这是我银行中的“默认”声明文本。然后,如果模型试图找出语句属于哪个类别,这将非常简单,因为会有很多语句重复,并且预测其中一个语句的概率会很高。我后来所做的是尝试删除所有重复的语句,因为重复的语句不会影响训练过程,但正因为如此,我的语句总数下降到了 ~ 2.000,然后只达到了 10% 的准确率预言。
我的问题是:训练我的模型的正确过程是什么?我应该让重复的陈述吗?(我觉得我在欺骗重复的预测)我做错了什么?