例如,我有一个段落,我想以二进制方式分类。但是因为输入必须有一个固定的长度,我需要确保每个段落都由一个统一的数量表示。
我所做的一件事是获取段落中的每个单词,使用 GloVe word2vec 对其进行向量化,然后将所有向量相加以创建一个“段落”向量,然后将其作为模型的输入输入。在这样做的过程中,我是否破坏了这些词可能具有的任何意义?
考虑到这两个句子将具有相同的向量:
我的狗咬了戴夫
戴夫咬了我的狗
我该如何解决这个问题?我接近这个错误吗?
还有什么其他方法可以训练我的模型?如果我把每个单词都输入到我的模型中,我怎么知道我应该输入多少单词?我如何输入这些单词?以二维数组的形式,其中每个词向量是一列?
我希望能够训练一个可以准确分类文本的模型。令人惊讶的是,仅通过使用这种总结方法,对于像 RandomForestClassifier 这样相对简单的模型,我得到了很高的(> 90%)。有什么见解吗?