分类:如何管理一个数据行依赖于另一个数据行的数据集

数据挖掘 机器学习 支持向量机 特征提取 特征工程 特征构造
2022-03-09 16:13:44

我正在尝试对 网页 进行heading分类。我正在通过使用我需要的抓取选定的 URL(大约 1000 个)来准备数据。CSV 文件中的每个数据行都包含带有三个目标标签的 etc,但除非文本位于图像下方,否则文本不会成为图像标题。有什么方法可以在行之间创建这种依赖关系。imageimage captionXPathDOM elementstag name, x-coordinate, y-coordinate, text-sizeheading, image, image caption

1个回答

我假设你正在解决一个有监督的分类问题,也就是说,你在一个标记的样本上训练你的模型。我可以想到两种方法来解决这个问题。

一、分类标签,对特征使用邻居标签

对于每个标签,您可以计算如下特征:

  • (x, y) 到最近图像的距离
  • (x, y)到此标签上方最近图像的距离
  • 此标签附近的图像数量
  • ...

这些特征可以输入任何分类器,如 SVM 或决策树。

II 分类标签对

对于每个标签i, 你可以考虑所有其他标签j并预测概率i是图像的标题j. 该预测可能基于以下连接:

  • 特点i
  • 特点j
  • 的共同特点ij,例如垂直和水平距离ij.

预测完这些概率后,就可以分类了i确实作为标题,如果这些概率中的任何一个超过某个阈值。