哪个深度学习文本分类器适合健康数据

数据挖掘 机器学习 深度学习 分类 文本挖掘
2021-09-17 15:18:10

我有一个这样的数据集:

postID  Sentence                                         drugYesOrNo
1       He went out with his friends    
2       He behaved nicely while talking with me 
3       He stopped using drugs after a while                 1
4       He did not meet any friend during last week 
1       He slowly cut usage of drugs                         1
2       He smiled like he is good   
3       He did not seem happy with his situation    

如您所见,有两个功能。第一个特征是我们的句子,第二个特征表明这句话是患者是否停药的标志。

第一列显示作为段落一部分的句子。例如 HERE 句子 1-4 是一个段落,我们将它们拆分以查看哪个句子准确显示了药物的停止所以第一段的第 3 句说明了这一点。

在第二种情况下,句子 1-3 是段落的一部分。这里的第一句话表明这个人停止了吸毒(这不好这个人应该继续)

所以我的目标是在我的文本数据上应用深度学习文本分类器并制作模型,因此当我收到 A NEW PARAGRAPH 时,我将能够预测该人是否已停止服药。

第一个问题,在这个案例研究中,哪个深度学习文本分类器效果最好?

其次,如您所见,我们已将段落切成一系列句子。但实际上我们会给出一段来测试模型。在您的想法中,解决此问题的最佳方法是什么?

我想到的是,在测试和接收段落时,我们再次将段落拆分为句子并将这些句子提供给模型,但我不确定这是一个好方法。

我们有 900 个这样的句子,同样我不确定在这么多数据上应用深度学习分类器会不会很愚蠢。

如果您给我您的观点,我将不胜感激:)

看完评论更新

我请几个人为我制作这样一个数据集。我的意思是看段落,拆分,然后说出哪个句子具有该含义(是否停止药物)。如果我没有要求他们明确说出哪个句子确实具有该含义,而只是指出哪个段落确实具有该含义(是否停止药物),该怎么办?您是否认为准确标记哪个句子确实具有该含义是一个好主意,而不是哪个段落具有该含义?我希望我足够清楚:)

1个回答

是的,您应该将段落拆分为句子并将这些句子提供给模型。你的深层结构应该是这样的:

在第一层,你必须放置一个词嵌入层来将一个句子表示为一个向量序列。在第二层,您必须使用 LSTM 才能将您的序列向量建模为单个向量。现在,您可以添加具有线性、relu 或 sigmoid 激活函数的连续层,以使您的模型更深入。在最后一层,你必须使用 sigmoid 激活函数来进行二分类。