我正在尝试使用 SVM 将消息分类为不同的类别。我已经从训练集中编制了一份理想的单词/符号列表。
对于表示消息的每个向量,1
如果存在该单词,我将相应的行设置为:
“语料库”是:[mary, little, lamb, star, twinkle]
第一条消息:“玛丽有一只小羊羔”-> [1 1 1 0 0]
第二条消息:“闪烁的小星星”-> [0 1 0 1 1]
我认为这是 SVM 相当常见的设置,但我的问题是,在集合中有数千个单词时,如果每条消息实际显示的只有 1-2 个单词怎么办?我的训练向量集的线性相关性是否会对算法的收敛能力产生不利影响?