特征文件路径编码

数据挖掘 特征提取 编码 特征
2022-03-08 09:25:26

我正在尝试找到某种允许转换系统文件路径的编码算法,例如。将“c:/users/file1/subfile2/targetfile”转换为我可以在机器学习中使用的功能,例如浮点值。如果位于路径末尾的文件夹/文件对输出值的影响较小,那将是最好的。

我在想可能是散列和算术的某种组合,但现在还不确定。

我尝试在科学论文和一般互联网上寻找类似的东西,但没有成功。

有没有人做过类似或类似的事情?

抱歉,如果我的问题中有一些愚蠢的错误。我刚刚开始我的数据科学冒险。

1个回答

您可以对每个级别进行编码并连接 -

如果我们忽略路径,直到 file1 在所有名称中都相同。
然后我们需要1 位子文件和 2 位目标文件

c:/users/file1/subfile1/targetfile_0 - [0 00]
c:/users/file1/subfile1/targetfile_1 - [0 01]
c:/users/file1/subfile1/targetfile_2 - [0 10]
c:/users/ file1/subfile2/targetfile_0 - [1 00]
c:/users/file1/subfile2/targetfile_1 - [1 01]
c:/users/file1/subfile2/targetfile_2 - [1 10]

另一种方法可以将所有路径视为一个特征。有了这个,您可以尝试所有许多编码方法,例如Here

+-----------+------------+--------------+
| Feature#1 | Feature#2  |  Feature#3   |
+-----------+------------+--------------+
| File_1    | Subfile_1  | Targetfile_1 |
| File_1    | Subfile_1  | Targetfile_2 |
| File_1    | Subfile_1  | Targetfile_3 |
+-----------+------------+--------------+
其它你可能感兴趣的问题