我正在尝试对 网页 进行heading分类。我正在通过使用我需要的抓取选定的 URL(大约 1000 个)来准备数据。CSV 文件中的每个数据行都包含带有三个目标标签的 etc,但除非文本位于图像下方,否则文本不会成为图像标题。有什么方法可以在行之间创建这种依赖关系。imageimage captionXPathDOM elementstag name, x-coordinate, y-coordinate, text-sizeheading, image, image caption
分类:如何管理一个数据行依赖于另一个数据行的数据集
数据挖掘
机器学习
支持向量机
特征提取
特征工程
特征构造
2022-03-09 16:13:44
1个回答
我假设你正在解决一个有监督的分类问题,也就是说,你在一个标记的样本上训练你的模型。我可以想到两种方法来解决这个问题。
一、分类标签,对特征使用邻居标签
对于每个标签,您可以计算如下特征:
- (x, y) 到最近图像的距离
- (x, y)到此标签上方最近图像的距离
- 此标签附近的图像数量
- ...
这些特征可以输入任何分类器,如 SVM 或决策树。
II 分类标签对
对于每个标签, 你可以考虑所有其他标签并预测概率是图像的标题. 该预测可能基于以下连接:
- 特点
- 特点
- 的共同特点和,例如垂直和水平距离到.
预测完这些概率后,就可以分类了确实作为标题,如果这些概率中的任何一个超过某个阈值。
其它你可能感兴趣的问题