数据挖掘 - 30年Excel测试数据 - 吾爱随笔录

30年Excel测试数据

数据挖掘 Python 数据爪哇擅长

2022-03-01 21:37:09

我是一家工业公司的 CS 实习生，该公司有 30 年的 Excel 文件需要分析。查看数据，只有一小部分文件需要查看和使用。确定这些文件后，我需要从特定列中提取值。真正的问题是测试没有标准的 Excel 格式，每个列的名称可以不同（例如“前轴向温度”与“前轴向温度”），但包含相同类型的数据。

那么，数据是半结构化的，是否有任何 python/java 库擅长提取这些数据？我可以创建一些正则表达式模式，但正如您所见，上述名称可能大不相同（但仍表示相同的含义）。

我也有兴趣查看已经这样做的服务。

4个回答

我看到了比较列的三种主要方法：列名的自动比较（例如正则表达式、Levenshtein 距离）、比较内容（例如比较列数据的平均值和标准差；如果列的平均值是 10,000，那么它可能不记录前轴向温度）和手动比较。您可以将这些组合起来，例如对列名和内容进行聚类，然后手动查看每个聚类的内容。不同列名的数量越少，就越可以依靠人工检查。您还可以获取其他元数据源，例如查找生成文件的任何过程的文档。

不知道数据集很难给你一个好的答案。但是，这就是我解决问题的方法：

创建用于最终标题的基列。遍历每个文件的标题，并将它们与具有最常见字符数量的基列相匹配。

对我来说，分析来自相同或不同 Excel 文件的表格数据（行和列）的最快方法是 Tableau。

您可以免费获得 Tableau（但无法保存您的文件）。

简化：加载您的 Excel 文件并创建一个键来加入（例如，一个名为“axel temp font”的新列）。加入这把钥匙。成功完成此操作后，您可以将列和行（在 Tableau 中称为度量）放入您的视图中进行分析。

额外技巧：一旦您对视图（列和行）感到满意，您就可以将其下载为 CSV。现在您在 CSV 中拥有所需的数据。

https://onlinehelp.tableau.com/current/pro/desktop/en-us/joining_tables.htm

祝你好运，

我们在谈论多少有用的 Excel 文件？更重要的是，列名有多少潜在的变体？

因为如果少于一千，您可能最好手动管理列名称：与实施和测试复杂的字符串匹配系统相比，这将花费更少的时间并为您提供更准确的数据。您不能依赖自动匹配，因此您需要评估结果的正确程度。使用任何预定义的字符串相似性方法都会给您留下很多错误。

我将按照以下方式进行：

自动从所有文件中提取所有列名
手动分组代表相同信息的那些
使用标准化版本的名称自动替换变体

其它你可能感兴趣的问题

上一篇什么是能够预测可变数量类的分类器下一篇统计学习要素的先决条件