如何可视化自然语言处理项目的数据?

数据挖掘 nlp
2022-03-03 00:26:28

我正在使用问答数据集。我的神经网络接受一个问题和一篇文章内容,并输出答案开始的位置(作为整数)。为了可视化我的数据,我应该如何处理它以及我应该使用什么图?

我正在考虑:

问题的单词/N-gram 频率直方图。另一个答案。

绘制将单词/n-gram 频率映射到输出特征的图

绘制将单词/n-gram 频率映射到香农熵值的图。

在这一点上,也许使用较小的机器学习模型 - 例如决策树 - qnd 绘制结果概率。

像我这样的项目最好的情节是什么?

1个回答

我不是专家,但让我试着和你一起思考。你的词汇量是多少?

我认为从小型机器学习模型开始当然是个好主意,但我认为即使是中等规模的词汇量,决策树也会很快受到影响。你需要一棵大树来做任何事情。所以我想我会从预训练的词嵌入开始,并使用一个小型神经网络来预测起点。这很有帮助,因为意义相近的词具有相似的向量,而决策树将无法使用这种信息。

您对直方图的建议似乎不错,但是您的直方图与您的词汇量一样宽,这似乎违背了将其可视化的目的...如果您使用词嵌入,那么使用类似的技术怎么样UMAP 在 2D 中绘制问题和文章?