我有一个文件夹,其中包含许多文件,这些文件的格式如下
madvise
write
write
write
write
read
read
madvise
ioctl
ioctl
getuid
epoll_pwait
read
recvfrom
sendto
getuid
epoll_pwait
那是一组重复的单词。这就是所有文件的样子。现在我使用 unigram 创建了一个特征向量表,每个单词都变成了一个特征,每个文件变成了一行,我把该单词出现在各个列中的频率放在了行中。
现在我想使用二元组创建一个类似的 FVT。我想知道在这种情况下如何做到这一点。