我正在尝试为包含 100 万行的多类分类训练文本数据。清理数据后,我使用 Word2Vec 特征的稀疏矩阵(特征大小为 300)
我拥有的数据是 1. ID 2. Dictionary 3. Label
字典大小从 10 键到 900 键不等
我在字典列上遵循的步骤是:
将字典转换为字符串 仅从字符串中获取好的标记 去除停用词 词干 Word2Vec 模型训练,特征大小为 300。 Word2Vec 特征生成 标签编码 将特征向量转换为 Numpy 数组 将 Numpy 数组转换为 (1114220, 300) 的稀疏矩阵 尝试过 OneVsRest 模型用于训练 onevsrest = OneVsRestClassifier(SVC(probability=True) , n_jobs=-1)
onevsrest.fit(稀疏矩阵,df.labels)
我运行这个模型将近两天,它被自动杀死了
我也尝试过逻辑回归
lr = LogisticRegression(penalty ='l1' , C=1 ,dual=False , solver='saga' , n_jobs=-1)
lr.fit(稀疏矩阵,df.labels)
我仍然面临同样的问题(模型继续训练 2 天并被杀死)
难道我做错了什么?或者有没有更好的方法来解决这类问题?