是否应该清理数据集的十六进制地址?

数据挖掘 Python 分类 数据框
2022-02-16 10:25:09

我正在研究区块链上的欺诈检测更具体地说,我获取了在区块链上发生的大量交易,使用适当的 API 将它们标记为垃圾邮件/非垃圾邮件,现在我将训练一个模型来使用 SVM 检测欺诈等......

我的问题是关于数据的准备。我拥有的字段是:hash,nonce transaction_index,from_address,to_address,...

“from/to_address”字段是十六进制字段,例如 0x5e14d30d2155c0cdd65044d7e0f296373f3e92f65ebd

我的问题是,我应该如何格式化这些数据?我应该删除这个字段吗?(我不这么认为,因为它与手头的问题非常相关)。我也找不到合适的编码。

1个回答

可以将“from/to_address”留在模型中。选择一种学习适当加权特征的算法会很有用。

在大多数机器学习算法中,当前的十六进制格式将被编码为字符串。使用特征散列将其编码为适合大多数机器学习算法的数值可能很有用。