我知道有人正在从事一个涉及摄取数据文件而不考虑列或数据类型的项目。任务是获取具有任意数量的列和各种数据类型的文件,并输出数字数据的汇总统计信息。
但是,他不确定如何为某些基于数字的数据动态分配数据类型。例如:
CITY
Albuquerque
Boston
Chicago
这显然不是数字数据,将存储为文本。然而,
ZIP
80221
60653
25525
没有明确标记为分类。他的软件会将邮政编码分配为数字并为其输出汇总统计信息,这对于那种数据没有意义。
我们有几个想法是:
- 如果一列都是整数,则将其标记为分类。这显然行不通,但这是一个想法。
- 如果一列的唯一值少于n 个并且是数字的,则将其标记为分类的。这可能更接近,但数字数据仍然可能存在问题。
- 维护一个实际应该是分类的常见数字数据列表,并将列标题与此列表进行比较以进行匹配。例如,任何带有“ZIP”的东西都是分类的。
我的直觉告诉我,没有办法准确地将数字数据分配为分类或数字,但希望得到建议。非常感谢您的任何见解。