数据挖掘 - 我应该使用什么样的分类？ - 吾爱随笔录

我对机器学习（和统计）非常陌生，并且正在努力学习一些基础知识（我使用 R 作为我的主要环境）。

我有一个包含单词及其所有形式的词典（以不同的性别，人 - 用于斯拉夫语）。因此，每个带有词形的词都是一个训练样本。我的训练属性是每个单词形式的最后一个字符，最后两个字符，最后三个字符。因此，每个训练样本都包含大约 100 个分类属性。我有 10000 个样本。一个属性有1700级左右，一个1200左右，5个500左右，其他的不到100级。

我已经使用 DBSCAN（和高尔距离）将相似词聚类到同一个聚类中。这一步非常成功。我从 40-100 个簇中得到（取决于是名词、动词还是形容词）。

现在到了我不知道如何继续的部分。如果我得到一个新的（未知的）单词，我想预测它属于哪个集群。有时对于这个新词我只知道它的基本形式，有时我也知道它的一部分词形，有时我知道它的所有词形。

所以这应该是某种多类的分类。问题：我应该使用哪种算法？我尝试使用multinom（在 R 中），但出现权重过多的错误。增加后MaxNWts出现错误：

weights:  641676 (633954 variable)
Error: cannot allocate vector of size 396 Kb

我应该在哪里继续？清理数据？使用不同的算法？

此外，大约 15 个属性只有 1 个级别或 NA。这对聚类（和分类）有何影响？删除这些属性是否安全？

提前谢谢了！