我在 Excel 工作表中有一个列,其中包含大量由||分隔符分隔的数据。数据可以分为一些类别,如实体、IFSC 代码、交易参考 ID 等。
单个单元格如下所示:
EFT INCOMING||0141201||NHFI0141201||UTR||SBIN118121948660 M S||some-name ||some-purpose||TRN REF NO:a1b2c3d4e5
并非每个单元格都具有相同数量的类甚至相同类型的类。另一个例子:
COMM/CHARGES/FEES||CHECK/REF.6546644473||BILPAY CCTY BEARING C||00.00||00012||18031358||BLPY||TRN REF NO:a1b2c3d4e5
我尝试使用正则表达式提取此信息,并且能够获取提取为单个列表的 ref-id 或 IFSC 代码列表。但我需要将一个单元格分解为多个带有单独信息的单元格。如果某个单元格没有该类数据,则应保持空白。
我也尝试使用命名实体识别,但出现了同样的问题,我得到实体列表作为输出,而不是故障。
请帮我确定这是什么问题?文本分类?解决它的方法是什么?