清理同一列中混合有两个字段的数据?

数据挖掘 数据清理 擅长
2022-03-12 14:45:41

我正在为仪表板制作一个模板,这给我带来了一些严重的麻烦。数据的格式是高度非结构化的。在下图中,圈出的项目是“站点名称”,数据是月份级别。

问题是“站点名称”与月份混合在一起,每个站点的月份数不一致一些站点将显示一年的数据,其他站点将包含长达 3 年的数据。没有指示年份的字段,只有月份。

在此处输入图像描述

我已经设法从这个专栏中提取了一个独特的站点名称列表,所以我自己有这些。我现在的问题是我不知道如何将它们与相应的月份相匹配。我正在考虑如何使用 HLOOKUP 来做到这一点,但是经过简要计划后,我不确定这是否可行。我将用作查找的站点名称并不全部出现在第一行。我完全不知道如何实现这一目标。

如果这不是在一个问题上问太多,我还面临着让 Excel 了解每个站点的第一个月份实例是一个月的较旧实例的挑战。IE“Jul”将是 2018 年第一次出现,2019 年第二次出现,2020 年第三次出现。任何帮助/提示将不胜感激。

1个回答

我建议为每个相应的月份添加一个公司名称。见附图。

第一列的公式确定它是一个月还是公司名称。假设您所有的月份都是三字母格式,并且没有名为“May”或“Sep”的公司,则单元格 B2 的公式为

=SUMPRODUCT(--(A2={"Jan","Feb","Mar","Apr","May","Jun","Jul","Aug","Sep","Oct","Nov","Dec"}))>0

C2 的公式是

=INDEX($A$2:$A$13,MATCH(2,1 /($B$2:B2=FALSE))+1)

有关此公式的说明,请参阅此页面 ( https://www.get-digital-help.com/index-match-last-value/ )。

最后,您可以在我的示例中过滤第三列,以仅保留特定公司的月份。它们将按需要的顺序排列。

Excel电子表格