数据挖掘 - 如何从excel中的列中提取和分类数据？ - 吾爱随笔录

我在 Excel 工作表中有一个列，其中包含大量由||分隔符分隔的数据。数据可以分为一些类别，如实体、IFSC 代码、交易参考 ID 等。

单个单元格如下所示：

EFT INCOMING||0141201||NHFI0141201||UTR||SBIN118121948660 M S||some-name ||some-purpose||TRN REF NO:a1b2c3d4e5

并非每个单元格都具有相同数量的类甚至相同类型的类。另一个例子：

COMM/CHARGES/FEES||CHECK/REF.6546644473||BILPAY CCTY BEARING C||00.00||00012||18031358||BLPY||TRN REF NO:a1b2c3d4e5

我尝试使用正则表达式提取此信息，并且能够获取提取为单个列表的 ref-id 或 IFSC 代码列表。但我需要将一个单元格分解为多个带有单独信息的单元格。如果某个单元格没有该类数据，则应保持空白。

我也尝试使用命名实体识别，但出现了同样的问题，我得到实体列表作为输出，而不是故障。

请帮我确定这是什么问题？文本分类？解决它的方法是什么？