我正在处理一个使用 IP 地址作为输入的分类问题,并且我试图找出哪些 IP 地址或子网可能属于垃圾邮件发送者。我的数据由 IP 地址中的四个八位字节和一个标签组成:SPAM 或 OK。
对于决策树来说,这感觉是一个很好的问题,但我发现大多数决策树算法都认为变量的顺序是可互换的。例如,ctreefromparty可能会输出解释为的规则
IF octet1 == 192 && octet4 == 190 THEN label => SPAM
但是对于 IP 地址,变量的顺序很重要。也就是说,八位字节 2 必须在八位字节 1 之后考虑,八位字节 3 必须在八位字节 2 之后考虑,依此类推,以产生如下规则
IF octet1 == 206 THEN label => OK
IF octet1 == 193 && octet2 == 64 && octet3 == 11 THEN label => SPAM
这是什么类型的决策树模型,什么算法/工具可以在这里提供帮助?我可以使用某种变体吗?我更喜欢坚持使用R。