我工作的公司经营社交网站,我们将一对一发送的邮件分类为垃圾邮件或非垃圾邮件。问题在于它是专门针对德国训练数据进行训练的,因为我们运营的大多数网络都是德国本地的。很快我们将需要为此支持多种语言,因为只接受过德语培训的人通常会认为其他语言的消息也是垃圾邮件。
如果可能的话,我宁愿不必为不同的语言维护不同的训练数据,所以我的问题是:
对多种语言进行文本分类的合理方法是什么?
在我们的案例中,垃圾邮件通常包含模糊链接和对其他网站的微妙引用。应归类为垃圾邮件的邮件示例:
嗨,有趣的家伙肯斯特杜密歇根?konnte hier kein bilder hoch laden komm mal bitte zu (somethingelse.com) mein nik ist (19theusername91) mal sehen ob du mich noch kennst :)
某女
当前的方法是用于预处理的正常词干提取、TF-IDF 和 LSA,然后是两级分类器:一个正常分类器的集合,用作将做出最终决策的线性分类器的输入。