我有一个大约 1k 个样本的数据集,我想应用一些无监督的技术来对这些数据进行聚类和可视化。
数据可以解释为电子表格的表格,不幸的是它没有非常明确的结构模式。表格行数不同,但列数不同。
数据结构如下:
sample 1:
{
"table1": {
"column1": [
"-",
"-",
"-"
],
"column2": [
"2017-04-16 10:00",
"2017-04-16 10:00",
"2017-04-16 10:00"
],
"column3": [
"-",
"-",
"-"
],
"column4": [
"name X",
"name Y",
"name Z"
],
"column5": [
"0",
"0",
"0"
],
}
}
sample 2:
{
"table1": {
"column1": [
"-",
"-",
"-",
"-",
"-",
"-",
"-",
"-"
],
"column2": [
"2017-04-10 22:00",
"2017-04-10 22:00",
"2017-04-10 22:00",
"2017-04-10 22:00",
"2017-04-10 22:00",
"2017-04-10 22:00",
"2017-04-10 22:00",
"2017-04-10 22:00"
],
"column3": [
"-",
"-",
"-",
"-",
"-",
"-",
"-",
"-"
],
"column4": [
"name A",
"name Z",
"name B",
"name X",
"name C",
"name D",
"name E",
"name F"
],
"coumn5": [
"",
"",
"3",
"1",
"0",
"3",
"0",
"0"
]
}
}
这些样本来自一个系统生成的警报,该系统从许多节点收集信息(这些节点被命名为“名称 A”、“名称 B”......)。我的目标是将这些数据转换为矩阵 (n_samples x n_features) 以应用聚类和可视化算法。
如何使用这些数据进行无监督训练?填充是解决这个问题的方法吗?如果是这样,我该如何在这种情况下应用填充?