如何从 Kaggle 上的 COVID-19 开放研究数据集挑战 (CORD-19) 中读取 cord_19_embeddings_2020-07-16.csv?

数据挖掘 数据集 可视化 词嵌入 卡格尔
2022-03-02 14:54:46

TAD csv 查看器中文件的表格视图

我正在尝试做的事情

我想使用CORD19 词嵌入 csv将它们映射到数据集其余部分的某些发现,但我们可以看到第一列中没有刺痛。

我了解单词或句子嵌入的方式是将单词或句子映射到多个向量。第一列中的值看起来有点像哈希,它们是我无法使用数据集的主要问题。

有人可以告诉我我在看什么以及如何使用它们吗?

我没有在 kaggle 上找到解释或概述该文件应该如何使用的文档、使用示例或提交。

1个回答

所以,经过大量挖掘,我在评论部分找到了一些东西。

它们是文档嵌入。

在此处输入图像描述

来自 CORD19 数据集的数据更新日志的 Kaggle 评论部分的相关评论:

如何在 Jupyter Notebook 中可视化嵌入的示例:

import pandas as pd
from whatlies import Embedding, EmbeddingSet
#Docs: https://rasahq.github.io/whatlies/api/embeddingset/


#transponse dataframe
sample_df = pd.read_csv('data/cord_embeddings_sample.csv', header=None, delimiter=',', index_col=0).T

def to_ems(df):
    ems_dict = {}
    for columnName, columnData in df.iteritems():
        ems_dict.update({str(columnName): Embedding(columnName, columnData)})
    return EmbeddingSet(ems_dict)

ems = to_ems(sample_df.head(10))
ems.plot_correlation()

在此处输入图像描述

ems.plot_interactive("ug7v899j","02tnwd4m")

在此处输入图像描述

您甚至可以使用数据集中的 s 进行 NLP,并通过 thefromjson将它们链接到嵌入UUIDSHAmetadata.csv

例子:

找到与吸烟有关的单词并为相应的论文着色:

我创建了 2 EmbeddingSets,在其中过滤了文本正文中包含与吸烟相关的单词的论文的嵌入,并UUID从列表中减去了它们的 s。两者EmbeddingSets都可以显示在图中。

from whatlies.transformers import Umap

# add 2 embedding sets

emb1 = non_smoking_ems.add_property('set', lambda d: 'non smoking papers')
emb2 = smoking_ems.add_property('set', lambda d: 'smoking papers')

both = emb1.merge(emb2)

#add a clustering transformer that reduces dimensionality (like umap) and visualise them
both.transform(Umap(2)).plot_interactive('umap_0', 'umap_1',color='set', annot=False)

在此处输入图像描述