数据挖掘 - 如何基于多列对文本进行分类 - 吾爱随笔录

我按主题对文本段落进行分类。我正在使用 scikit learn，例如线性 svc，但对其他选项持开放态度。目前，仅使用每个段落的文本（"En"下面标记的列）。但我觉得使用每篇文章的标题（"Ref"下面标记的列）会有所帮助。

    Ref               En                                                Topics
3   Gittin            modifier meaning board referred unique name mo... dinei-haget
11  Even HaEzer       hand katafres explanation hand slanted obvious... dinei-haget
67  Rest on Holiday   similar two baskets untithed fruit front first... laws-of-holidays
118 Beitzah           mishna states one ate food prepared festival e... laws-of-holidays
131 Sabbath           one may mix water salt oil dip one bread put c... rabbinically-forbidden-activities-on-shabbat

@Erwan 在评论中提到的一个好主意是简单地将标题与段落文本一起包含在内。但我有两个问题：

我怎么做？
难道我不想让标题（或"Ref"）比文章中的其他词更重要吗？