我正在尝试使用 NN 预测文章或帖子的点赞数。
我有一个大约 70,000 行和 2 列的数据框:“文本”(预测器 - 文本字符串)和“喜欢”(目标 - 连续 int 变量)。我一直在阅读 NLP 问题中采用的方法,但我对 NN 的输入应该是什么样子感到有些迷茫。
这是我到目前为止所做的:
- 文本清理:去除html标签、停用词、标点符号等...
- 小写文本列
- 代币化
- 词形还原
- 词干
我将结果分配给一个新列,所以现在我有“clean_text”列,上面应用了所有内容。但是,我不确定如何进行。
在大多数 NLP 问题中,我注意到人们使用词嵌入,但据我了解,这是尝试预测文本中的下一个词时使用的一种方法。学习词嵌入为在语法上彼此相似的词创建了向量,在我的例子中,我看不到如何使用它来推导每个词对目标变量的权重/影响。
另外,当我尝试使用 Gensim 库生成一个词嵌入模型时,它产生了超过 50k 的词,我认为这会使 onehot 编码变得过于困难甚至不可能。即使这样,我也必须对每一行进行一次热编码,然后为所有行创建一个具有相似长度的填充以提供给 NN 模型,但是我创建的新列“clean_text”中每一行的长度变化很大,所以它会导致非常大的 onehot 编码矩阵,这是一种冗余。
我接近这个完全错误吗?我该怎么办?