我正在尝试构建一个从表格中提取财务数据的机器学习系统。
示例表如下所示。
从上图中您可以看到净销售额是一个属性以及两个不同季度的两个值 2707.1 和 1994.5。所以我想用日期、季度、货币价值等元数据提取这些数据。如下图。

通常,如果它是在自由文本中,我会使用使用 Spacy 或其他模块的实体提取方法。我们不能应用规则,因为我们必须从中提取很多种类的表。
编辑: 数据来自 HTML 文件。
示例网站
我正在尝试构建一个从表格中提取财务数据的机器学习系统。
示例表如下所示。
从上图中您可以看到净销售额是一个属性以及两个不同季度的两个值 2707.1 和 1994.5。所以我想用日期、季度、货币价值等元数据提取这些数据。如下图。

通常,如果它是在自由文本中,我会使用使用 Spacy 或其他模块的实体提取方法。我们不能应用规则,因为我们必须从中提取很多种类的表。
编辑: 数据来自 HTML 文件。
示例网站