我正在使用由源 IP 地址、目标 IP 地址、源端口、目标端口、协议组成的完全分类的网络日志数据。
执行的数据预处理:将 IP 地址转换为整数。删除了带有 NA 的行。Dis 不执行缩放,因为它对分类数据没有任何意义,而且我正在计算汉明距离。
建模和实现:我已经实现了“汉明距离”来计算集合的距离矩阵。我已经尝试通过将分类变量转换为因子并对数据执行 Kmeans 来将分类变量转换为数值,但是我得到的准确度与预期的一样低。我也使用过 KModes,并且我已经获得了数据的集群标签,我面临着从这里进一步推进的挑战。
问题:计算出距离矩阵后,如何检测具有这种数据类型的异常值?我非常感谢任何建议。提前致谢
Data Snippet : 2887562076 2344654028 6 41940 80
2344654028 2887562076 6 80 41940
2344654028 2887562076 6 80 41940