前项的分类很重要时的分类

数据挖掘 机器学习 分类 机器学习模型 文本分类 顺序
2022-02-26 20:36:05

我有一个分类问题要解决,这似乎很常见,但我正在努力寻找这个任务的名称以及为这个问题建模的最佳方法。

假设我有一系列按时间顺序排列的事件。

2 Jan - I matched with a nice girl on Tinder - ACTION_TYPE = SOCIAL_EVENT
5 Jan - I meet with her, it was nice - ACTION_TYPE = SOCIAL_EVENT
8 Jan - I just got accept to a new job. I will meet my boss tomorrow- ACTION_TYPE = PROFESSIONAL_EVENT
10 Jan - I meet with her, it was nice - ACTION_TYPE = PROFESSIONAL_EVENT

这是监督学习,我已经正确标记了要训练的时间线。但是在预测过程中,我必须标记每一个事件。

我从文本的文本分类开始,但我无法区分“1 月 5 日”和“1 月 10 日”的事件。

我的直觉是将这个问题与序列标记结合起来,最后加上一个 CRF 层。但是,如果您可以在文献中查看其他可能的解决方案,那就太好了。

我将如何建模这个问题?这个问题在文献中是否已知,如果是,我怎样才能找到它?

3个回答

您可以将问题描述为分类。特征是文本和日月。目标是离散类别标签之一(即,SOCIAL_EVENT 或 PROFESSIONAL_EVENT)。

在时间序列中,您使用过去的数据来预测未来。因此,您在时间 t 的文本是您需要分类的文本。但是您的数据可以有滞后数据作为输入,甚至可以有一些基于过去 N 点的聚合函数。在时间序列中,我们在移动窗口上使用平均值和标准。

例如,包括滞后:模型的输入数据:

[curent text, previous text, text before previous text]

使用词袋转换:

[word 1 in text 1, ... ,word n in text 1, word 1 in text 2, ... , word n in text 2 ...] 

这里位置很重要,但神经网络可以识别它。

由于您的文本数据本质上是顺序的,因此最好选择顺序分类,请参阅下面的论文和教程以获取更多信息。