数据挖掘 - 如何可视化自然语言处理项目的数据？ - 吾爱随笔录

数据挖掘 nlp

2022-03-03 00:26:28

我正在使用问答数据集。我的神经网络接受一个问题和一篇文章内容，并输出答案开始的位置（作为整数）。为了可视化我的数据，我应该如何处理它以及我应该使用什么图？

我正在考虑：

问题的单词/N-gram 频率直方图。另一个答案。

绘制将单词/n-gram 频率映射到输出特征的图

绘制将单词/n-gram 频率映射到香农熵值的图。

在这一点上，也许使用较小的机器学习模型 - 例如决策树 - qnd 绘制结果概率。

像我这样的项目最好的情节是什么？

1个回答

我不是专家，但让我试着和你一起思考。你的词汇量是多少？

我认为从小型机器学习模型开始当然是个好主意，但我认为即使是中等规模的词汇量，决策树也会很快受到影响。你需要一棵大树来做任何事情。所以我想我会从预训练的词嵌入开始，并使用一个小型神经网络来预测起点。这很有帮助，因为意义相近的词具有相似的向量，而决策树将无法使用这种信息。

您对直方图的建议似乎不错，但是您的直方图与您的词汇量一样宽，这似乎违背了将其可视化的目的...如果您使用词嵌入，那么使用类似的技术怎么样UMAP 在 2D 中绘制问题和文章？

其它你可能感兴趣的问题