数据挖掘 - 超过 600 个类的大型数据集的多类分类 - 吾爱随笔录

我正在尝试为包含 100 万行的多类分类训练文本数据。清理数据后，我使用 Word2Vec 特征的稀疏矩阵（特征大小为 300）

我拥有的数据是 1. ID 2. Dictionary 3. Label

字典大小从 10 键到 900 键不等

我在字典列上遵循的步骤是：

将字典转换为字符串仅从字符串中获取好的标记去除停用词词干 Word2Vec 模型训练，特征大小为 300。 Word2Vec 特征生成标签编码将特征向量转换为 Numpy 数组将 Numpy 数组转换为 (1114220, 300) 的稀疏矩阵尝试过 OneVsRest 模型用于训练 onevsrest = OneVsRestClassifier(SVC(probability=True) , n_jobs=-1)

onevsrest.fit（稀疏矩阵，df.labels）

我运行这个模型将近两天，它被自动杀死了

我也尝试过逻辑回归

lr = LogisticRegression(penalty ='l1' , C=1 ,dual=False , solver='saga' , n_jobs=-1)

lr.fit（稀疏矩阵，df.labels）

我仍然面临同样的问题（模型继续训练 2 天并被杀死）

难道我做错了什么？或者有没有更好的方法来解决这类问题？