我正在尝试构建一个模型,该模型将接收一封电子邮件(英文、提取的主题和电子邮件正文)并确定它是否有问题、请求或建议。基本上,我想查看我没有回复但需要回复的邮件。该模型可以用作电子邮件客户端中的“过滤器”。
最好的方法是什么?
相关工作:
我正在尝试构建一个模型,该模型将接收一封电子邮件(英文、提取的主题和电子邮件正文)并确定它是否有问题、请求或建议。基本上,我想查看我没有回复但需要回复的邮件。该模型可以用作电子邮件客户端中的“过滤器”。
最好的方法是什么?
相关工作:
这是一个分类问题,与垃圾邮件过滤器不同。您不是将电子邮件标记为垃圾邮件/非垃圾邮件,而是标记它是否具有您描述的操作类别之一。
您需要首先组装一个示例电子邮件消息的训练语料库并标记每个示例,以确定您的哪些(可能是多个)类别(如果有)实际存在于该电子邮件中。
接下来,预处理该数据以提取每条消息的特征。典型特征的示例包括单词(或 n-gram)计数/频率(单词袋)。作为一种快捷方式,您可以将一个布尔值作为特征包含在一个特征中,该布尔值指示您怀疑将预测一个或多个类别的特定单词或短语的存在或不存在。诸如词干提取之类的技术可以帮助减少正在使用的单词/n-gram 的数量(通常会提高准确性)。
一旦您拥有包含每个训练电子邮件的特征和标签的数据集(可能将此设置分解为训练、交叉验证和测试的子集),您将需要应用监督分类算法。您可以从逻辑回归或 SVM 等线性分类器开始,如果您对结果的准确性不满意,则可以使用神经技术。