将文本提取到列中

数据挖掘 文本挖掘 橙色3
2022-02-27 10:01:11

我有一组客户报告,每个都在 ms word 文件中。它们都采用相似的模式,例如它们以姓名开头:--、年龄:--、日期:--等...

有没有办法从每个文件中提取特定字符串以形成数据集。

在橙色中,我能够将 word 文档编译成可以显示为一列的语料库(每个报告都在一个单元格中)。橙色是否有办法将字符串提取到列中(例如,如果在“年龄:”和“性别”之间)?

1个回答

也许您可以使用Orange3-Text插件、小部件预处理文本、标记化 > 正则表达式。源代码表明它是 Python正则表达式,因此您可以使用正则表达式模式,例如:

(?ix)        # ignore case, ignore comments and whitespace in this RE
(?<=age:\s)  # preceded by 'age: '
.+           # characters you wish to match
(?=gender:)  # followed by 'gender:'