我对数据科学领域比较陌生,请原谅我的新手问题。有哪些可用的方法可以将在线学习算法转换email为ip向量。分类目的是评估欺诈/非欺诈交易。继续解释:其他相关领域是分类的,并且已经被矢量化。
分类任务的电子邮件和 IP 字符串预处理
机器算法验证
机器学习
数据转换
数据集
2022-04-03 22:42:09
1个回答
这是一个非常有趣的问题!字符串向量化现在是一个活跃的研究领域,并且有很多有趣的方法。
首先,IP 地址是分层的,可以用小数点分成 4 个分类变量,每个有 256 个级别(不过要注意 IPv4 和 IPv6)!在线性模型中,您可以直接使用顶级 ip 块,可能与第二、第三和第四块交互,具体取决于您拥有的数据量。在基于树的模型(例如随机森林或 GBM)中,尝试将 ip 地址转换为整数并直接对其进行建模。随机森林或 GBM 应该能够为您的模型识别 IP 范围的有趣块。大多数数据库都有进行这种转换的功能,而且我知道还有一个非常好的 R 包。
对于电子邮件地址,首先将 @ 符号拆分为地址、域。域本身作为分类变量可能很有用,但您可能希望进一步为 .com、.edu 和 .gov 等添加一个变量。(R 中的 urltools 包可以帮助您提取顶级域 - 真的有人需要编写一个emailtools包!)对于地址部分(@ 符号之前的位),您可以使用字符 n-gram 矢量化器创建一个非常宽、非常稀疏的矩阵,然后您可以直接在模型中使用它,或者可以使用 SVD 之类的方法进行进一步处理以降低其维度。您还可以尝试使用单词矢量化器,在 、 和 等符号上.进行-拆分_。
这两个领域有大量信息——祝你好运!
其它你可能感兴趣的问题