我按主题对文本段落进行分类。我正在使用 scikit learn,例如线性 svc,但对其他选项持开放态度。目前,仅使用每个段落的文本("En"下面标记的列)。但我觉得使用每篇文章的标题("Ref"下面标记的列)会有所帮助。
Ref En Topics
3 Gittin modifier meaning board referred unique name mo... dinei-haget
11 Even HaEzer hand katafres explanation hand slanted obvious... dinei-haget
67 Rest on Holiday similar two baskets untithed fruit front first... laws-of-holidays
118 Beitzah mishna states one ate food prepared festival e... laws-of-holidays
131 Sabbath one may mix water salt oil dip one bread put c... rabbinically-forbidden-activities-on-shabbat
@Erwan 在评论中提到的一个好主意是简单地将标题与段落文本一起包含在内。但我有两个问题:
- 我怎么做?
- 难道我不想让标题(或
"Ref")比文章中的其他词更重要吗?