我想将电子邮件分类为垃圾邮件和非垃圾邮件。
我有一个包含 20,000 封 TXT 格式电子邮件的标记数据集。这些电子邮件位于单独的文件中,也位于一个组合文件中。
示例电子邮件如下所示:
From: "Sender Display Name" <sender@abc.com>
To: systudent <systudent@abc.com>, tystudent <tystudent@abc.com>,
btechstudent <btechstudent@abc.com>, mtech16 <mtech16@abc.com>, mtech17 <mtech17@abc.com>
Subject: Register to the event
Date: Tue, 21 Nov 2017 14:16:17 +0000
X-Originating-IP: [13.90.24.116]
Body:
Some spam text
<https://somelink.com/abc>
EOM
Label: Spam
我要使用的功能是:发件人显示名称、发件人电子邮件地址、收件人、主题、日期、IP、URL。
如何将这些转换为输入特征向量,或者如何将这些作为当前 TXT 格式的输入提供给随机森林、朴素贝叶斯等机器学习算法?