医学文本数据的自动注释

数据挖掘 分类 文本挖掘 文本
2021-09-24 17:43:32

我有一个包含 30000 个全基因组序列分析的数据集。对于每个示例,我都有一个不遵循任何固定格式的文本描述。我想要的是每个样本的注释,表明疾病和表征样本的特定组织。

我不喜欢文本挖掘,所以我不知道我可以使用哪些工具。有什么建议?

2个回答

您可以使用基因组序列的线性回归来预测描述中单词的出现。进一步来说:

  1. 使用虚拟变量对基因组序列进行编码。

  2. 使用词干使同一单词的不同变位相同。

  3. 使用词袋表示来表示单词。

  4. 使用字数的缩放 wi 喜欢 log(wi+1)或更高级的TF-IDF

  5. 由于您有很多自变量(可能超过记录数?),您应该对模型进行一些正则化如果您想要一个稀疏模型,Lasso 将是一个不错的选择,如果您想在系数上置零,请使用岭回归。

此方法可用于预测基因序列的典型词,从而表征序列。

您可以使用线性模型的中间结果来查看哪些组织对预测很重要。重要的是“开启”并具有高系数的虚拟变量。因为您有多个输出,您可以通过仅使用前 n 个可能单词的系数来简化此操作。

您想要的每个序列的所有信息是否都包含在附加的文本中?如果是这样,只需将疾病列表和组织列表与每个文本进行比较。疾病列表可以在例如CDC网站上找到。