我正在寻求有关涉及数据列标记的机器学习问题的指导。目前,我有一个系统,用户可以在其中向表中的列添加多个标签。但是,我想通过使用多标签分类来自动标记新列。通过对列值进行列分析,我从每列中提取了 21 个特征。获得的特征将包括统计值,如标准偏差、最大值、最小值、峰度等。我是否在使用这些特征作为多标签分类模型的输入的正确路径?现在我专注于列中的数值
例子:
例如,左边的上表代表了一些由 3 列组成的任意表。作为用户,我会用适当的标签标记列。因此,Rainfall 列将包含降雨和降水,而 Temperature 列将包含温度。右侧的表格仅表示以表格格式分配给列的标签。
上图中的示例样本数据集
为了让我进行多标签分类以自动自动标记列,当具有相似列的表被摄取到系统中时,我需要提取一些描述已标记列的特征或属性以用作输入多标签模型。所以我做了一些列分析,只在上表中放置了几个示例特性。这包括标准差、最大值、最小值、中值和峰度。我总共有大约 21 个功能。上图中的每一列也表示输出标签,其中 1 表示标签存在,0 表示不存在。
最后,模型将根据其特征决定将哪些标签分配给新发现的列。