我有一个包含 30000 个全基因组序列分析的数据集。对于每个示例,我都有一个不遵循任何固定格式的文本描述。我想要的是每个样本的注释,表明疾病和表征样本的特定组织。
我不喜欢文本挖掘,所以我不知道我可以使用哪些工具。有什么建议?
我有一个包含 30000 个全基因组序列分析的数据集。对于每个示例,我都有一个不遵循任何固定格式的文本描述。我想要的是每个样本的注释,表明疾病和表征样本的特定组织。
我不喜欢文本挖掘,所以我不知道我可以使用哪些工具。有什么建议?
您想要的每个序列的所有信息是否都包含在附加的文本中?如果是这样,只需将疾病列表和组织列表与每个文本进行比较。疾病列表可以在例如CDC网站上找到。