我有一个这样的数据集:
postID Sentence drugYesOrNo
1 He went out with his friends
2 He behaved nicely while talking with me
3 He stopped using drugs after a while 1
4 He did not meet any friend during last week
1 He slowly cut usage of drugs 1
2 He smiled like he is good
3 He did not seem happy with his situation
如您所见,有两个功能。第一个特征是我们的句子,第二个特征表明这句话是患者是否停药的标志。
第一列显示作为段落一部分的句子。例如 HERE 句子 1-4 是一个段落,我们将它们拆分以查看哪个句子准确显示了药物的停止。所以第一段的第 3 句说明了这一点。
在第二种情况下,句子 1-3 是段落的一部分。这里的第一句话表明这个人停止了吸毒(这不好这个人应该继续)
所以我的目标是在我的文本数据上应用深度学习文本分类器并制作模型,因此当我收到 A NEW PARAGRAPH 时,我将能够预测该人是否已停止服药。
第一个问题,在这个案例研究中,哪个深度学习文本分类器效果最好?
其次,如您所见,我们已将段落切成一系列句子。但实际上我们会给出一段来测试模型。在您的想法中,解决此问题的最佳方法是什么?
我想到的是,在测试和接收段落时,我们再次将段落拆分为句子并将这些句子提供给模型,但我不确定这是一个好方法。
我们有 900 个这样的句子,同样我不确定在这么多数据上应用深度学习分类器会不会很愚蠢。
如果您给我您的观点,我将不胜感激:)
看完评论更新
我请几个人为我制作这样一个数据集。我的意思是看段落,拆分,然后说出哪个句子具有该含义(是否停止药物)。如果我没有要求他们明确说出哪个句子确实具有该含义,而只是指出哪个段落确实具有该含义(是否停止药物),该怎么办?您是否认为准确标记哪个句子确实具有该含义是一个好主意,而不是哪个段落具有该含义?我希望我足够清楚:)