数据挖掘 - 从特定数据集中制作二元组特征 - 吾爱随笔录

数据挖掘机器学习数据集数据特征构造

2022-03-15 06:45:37

我有一个文件夹，其中包含许多文件，这些文件的格式如下

madvise
write
write
write
write
read
read
madvise
ioctl
ioctl
getuid
epoll_pwait
read
recvfrom
sendto
getuid
epoll_pwait

那是一组重复的单词。这就是所有文件的样子。现在我使用 unigram 创建了一个特征向量表，每个单词都变成了一个特征，每个文件变成了一行，我把该单词出现在各个列中的频率放在了行中。

现在我想使用二元组创建一个类似的 FVT。我想知道在这种情况下如何做到这一点。

1个回答

Bigram 更适合与句子一起使用。在您的情况下，文件包含单词列表，我可以理解。因此，在您的项目中使用二元组可能不会产生预期的结果。但是，如果您仍然愿意这样做，这就是您计算二元组的方式：

取出单词列表并计算相邻单词的频率。前任：

（疯狂，写） - 1

（写，写） - 3

（写，读） - 1

（阅读，阅读） - 1

（阅读，疯狂） - 1

(sendto, epoll_pwait) - 1

其它你可能感兴趣的问题