我正在使用问答数据集。我的神经网络接受一个问题和一篇文章内容,并输出答案开始的位置(作为整数)。为了可视化我的数据,我应该如何处理它以及我应该使用什么图?
我正在考虑:
问题的单词/N-gram 频率直方图。另一个答案。
绘制将单词/n-gram 频率映射到输出特征的图
绘制将单词/n-gram 频率映射到香农熵值的图。
在这一点上,也许使用较小的机器学习模型 - 例如决策树 - qnd 绘制结果概率。
像我这样的项目最好的情节是什么?
我正在使用问答数据集。我的神经网络接受一个问题和一篇文章内容,并输出答案开始的位置(作为整数)。为了可视化我的数据,我应该如何处理它以及我应该使用什么图?
我正在考虑:
问题的单词/N-gram 频率直方图。另一个答案。
绘制将单词/n-gram 频率映射到输出特征的图
绘制将单词/n-gram 频率映射到香农熵值的图。
在这一点上,也许使用较小的机器学习模型 - 例如决策树 - qnd 绘制结果概率。
像我这样的项目最好的情节是什么?
我不是专家,但让我试着和你一起思考。你的词汇量是多少?
我认为从小型机器学习模型开始当然是个好主意,但我认为即使是中等规模的词汇量,决策树也会很快受到影响。你需要一棵大树来做任何事情。所以我想我会从预训练的词嵌入开始,并使用一个小型神经网络来预测起点。这很有帮助,因为意义相近的词具有相似的向量,而决策树将无法使用这种信息。
您对直方图的建议似乎不错,但是您的直方图与您的词汇量一样宽,这似乎违背了将其可视化的目的...如果您使用词嵌入,那么使用类似的技术怎么样UMAP 在 2D 中绘制问题和文章?