30年Excel测试数据

数据挖掘 Python 数据 爪哇 擅长
2022-03-01 21:37:09

我是一家工业公司的 CS 实习生,该公司有 30 年的 Excel 文件需要分析。查看数据,只有一小部分文件需要查看和使用。确定这些文件后,我需要从特定列中提取值。真正的问题是测试没有标准的 Excel 格式,每个列的名称可以不同(例如“前轴向温度”与“前轴向温度”),但包含相同类型的数据。

那么,数据是半结构化的,是否有任何 python/java 库擅长提取这些数据?我可以创建一些正则表达式模式,但正如您所见,上述名称可能大不相同(但仍表示相同的含义)。

我也有兴趣查看已经这样做的服务。

4个回答

我看到了比较列的三种主要方法:列名的自动比较(例如正则表达式、Levenshtein 距离)、比较内容(例如比较列数据的平均值和标准差;如果列的平均值是 10,000,那么它可能不记录前轴向温度)和手动比较。您可以将这些组合起来,例如对列名和内容进行聚类,然后手动查看每个聚类的内容。不同列名的数量越少,就越可以依靠人工检查。您还可以获取其他元数据源,例如查找生成文件的任何过程的文档。

不知道数据集很难给你一个好的答案。但是,这就是我解决问题的方法:

创建用于最终标题的基列。遍历每个文件的标题,并将它们与具有最常见字符数量的基列相匹配。

对我来说,分析来自相同或不同 Excel 文件的表格数据(行和列)的最快方法是 Tableau。

您可以免费获得 Tableau(但无法保存您的文件)。

简化:加载您的 Excel 文件并创建一个键来加入(例如,一个名为“axel temp font”的新列)。加入这把钥匙。成功完成此操作后,您可以将列和行(在 Tableau 中称为度量)放入您的视图中进行分析。

额外技巧:一旦您对视图(列和行)感到满意,您就可以将其下载为 CSV。现在您在 CSV 中拥有所需的数据。

https://onlinehelp.tableau.com/current/pro/desktop/en-us/joining_tables.htm

祝你好运,

我们在谈论多少有用的 Excel 文件?更重要的是,列名有多少潜在的变体?

因为如果少于一千,您可能最好手动管理列名称:与实施和测试复杂的字符串匹配系统相比,这将花费更少的时间并为您提供更准确的数据。您不能依赖自动匹配,因此您需要评估结果的正确程度。使用任何预定义的字符串相似性方法都会给您留下很多错误。

我将按照以下方式进行:

  1. 自动从所有文件中提取所有列名
  2. 手动分组代表相同信息的那些
  3. 使用标准化版本的名称自动替换变体