如何使用 NLP 和深度学习从原始非结构化文本创建域规则?

数据挖掘 机器学习 深度学习 nlp
2022-03-04 04:40:31

如何使用 NLP 和深度学习技术从原始非结构化文本创建域规则?例如,对于下面关于登革热症状的文本,所有三个看起来都非常相似,但是如果您想确定一个人是否患有登革热,您需要从这些原始文本中确定明确的共同最低限度规则,以确认一个人是否患有登革热登革热。有人可以参考一些解决了类似问题的研究或博客吗?

1) Symptoms of dengue fever include severe joint and muscle pain, swollen lymph nodes, headache, fever, exhaustion, and rash. 

2) High fever and at least two of the following:
Severe headache
Severe eye pain (behind eyes)
Joint pain
Muscle and/or bone pain
Rash
Mild bleeding manifestation (e.g., nose or gum bleed, petechiae, or easy bruising)
Low white cell count

3) Aching muscles and joints
Body rash that can disappear and then reappear
high fever
intense headache
pain behind the eyes
vomiting and feeling nauseous

对于上述三个提取公共规则看起来像

1) Fever
2) Joint and muscle pain
3) Headache
4) Rash
2个回答

我认为您的问题可以使用Case Based Reasoning来解决。

它的基本原理是,您需要使用您拥有的大量不同案例来训练模型。根据您给出的症状预测结果(哪种疾病)。

工艺流程 请参阅下面的链接以深入了解该主题,并附上几个与医疗保健行业相关的链接:

  1. 链接-1
  2. 链接-2
  3. 链接-3
  4. 链接-4
  5. 链接-5
  6. 链接-6
  7. 链接-7

如果您需要任何其他信息,请告诉我。

您可以查看 LDA 等主题模型以发现最常见的主题。预处理,如删除停用词、词干提取和使用 n-gram,然后应用 LDA,通常会产生更好的结果。

您还可以将嵌入与神经网络一起使用来发现重要的单词。谷歌的 MLCC 有一个很好的例子。