将电子邮件作为机器学习算法的输入

数据挖掘 机器学习 分类 特征选择 特征提取
2022-02-14 07:37:58

我想将电子邮件分类为垃圾邮件和非垃圾邮件。

我有一个包含 20,000 封 TXT 格式电子邮件的标记数据集。这些电子邮件位于单独的文件中,也位于一个组合文件中。

示例电子邮件如下所示:

From: "Sender Display Name" <sender@abc.com>

To: systudent <systudent@abc.com>, tystudent <tystudent@abc.com>, 
btechstudent <btechstudent@abc.com>, mtech16 <mtech16@abc.com>, mtech17 <mtech17@abc.com>

Subject: Register to the event

Date: Tue, 21 Nov 2017 14:16:17 +0000

X-Originating-IP: [13.90.24.116]


Body:

Some spam text

<https://somelink.com/abc>


EOM
Label: Spam

我要使用的功能是:发件人显示名称、发件人电子邮件地址、收件人、主题、日期、IP、URL。

如何将这些转换为输入特征向量,或者如何将这些作为当前 TXT 格式的输入提供给随机森林、朴素贝叶斯等机器学习算法?

0个回答
没有发现任何回复~