我有一个单词列表,属于不同的自定义类别。每个类别都有自己的模式(例如,一个具有固定长度的特殊字符,另一个存在仅出现在该“单词”类别中的字符,...)。
例如:
"ABC" -> type1
"ACC" -> type1
"a8 219" -> type2
"c 827" -> type2
"ASDF 123" -> type2
"123123" -> type3
...
我正在寻找一种机器学习技术来根据训练数据自行学习这些模式。我已经尝试自己定义一些预测变量(例如字长、特殊字符的数量……),然后使用神经网络来学习和预测类别。但这实际上不是我想要的。我想要一种技术来自己学习每个类别的模式——甚至学习我从未想过的模式。
所以我给算法学习数据(由单词类别示例组成)并希望它学习每个类别的模式,以便以后从相似或相等的单词中预测类别。
有没有最先进的方法来做到这一点?
谢谢你的帮助