从特定数据集中制作二元组特征

数据挖掘 机器学习 数据集 数据 特征构造
2022-03-15 06:45:37

我有一个文件夹,其中包含许多文件,这些文件的格式如下

madvise
write
write
write
write
read
read
madvise
ioctl
ioctl
getuid
epoll_pwait
read
recvfrom
sendto
getuid
epoll_pwait

那是一组重复的单词。这就是所有文件的样子。现在我使用 unigram 创建了一个特征向量表,每个单词都变成了一个特征,每个文件变成了一行,我把该单词出现在各个列中的频率放在了行中。

现在我想使用二元组创建一个类似的 FVT。我想知道在这种情况下如何做到这一点。

1个回答

Bigram 更适合与句子一起使用。在您的情况下,文件包含单词列表,我可以理解。因此,在您的项目中使用二元组可能不会产生预期的结果。但是,如果您仍然愿意这样做,这就是您计算二元组的方式:

取出单词列表并计算相邻单词的频率。前任:

(疯狂,写) - 1

(写,写) - 3

(写,读) - 1

(阅读,阅读) - 1

(阅读,疯狂) - 1

.

.

.

.

(sendto, epoll_pwait) - 1