我一直在研究 Word2vec 算法的训练数据。由于我们需要单词保持原始状态,因此我们不会在预处理阶段将它们设为小写。因此,有些词有不同的变体(例如“Earth”和“earth”)。
我能想到的唯一方法是对“地球”和“地球”的向量进行平均,以创建一个向量来表示这个词。(因为特征向量的维度相似)
这是一个“好的”方法吗?如果不是,那么处理此问题的好方法是什么?
注意:降低预处理中的所有单词目前不是一个选项。
编辑:关于特征尺寸是否真正线性的信息也会有所帮助。
编辑2:结合两个答案patapouf_ai
并yazhi
给出最佳结果。这些是如何结合的?加权平均改进了结果,但是通过缩放的 sigmoid 函数将词频放在最好的结果中,因为以线性方式使用词频赋予了它们比它们承受的更多的重要性。