我有一组客户报告,每个都在 ms word 文件中。它们都采用相似的模式,例如它们以姓名开头:--、年龄:--、日期:--等...
有没有办法从每个文件中提取特定字符串以形成数据集。
在橙色中,我能够将 word 文档编译成可以显示为一列的语料库(每个报告都在一个单元格中)。橙色是否有办法将字符串提取到列中(例如,如果在“年龄:”和“性别”之间)?
我有一组客户报告,每个都在 ms word 文件中。它们都采用相似的模式,例如它们以姓名开头:--、年龄:--、日期:--等...
有没有办法从每个文件中提取特定字符串以形成数据集。
在橙色中,我能够将 word 文档编译成可以显示为一列的语料库(每个报告都在一个单元格中)。橙色是否有办法将字符串提取到列中(例如,如果在“年龄:”和“性别”之间)?
也许您可以使用Orange3-Text插件、小部件预处理文本、标记化 > 正则表达式。源代码表明它是 Python正则表达式,因此您可以使用正则表达式模式,例如:
(?ix) # ignore case, ignore comments and whitespace in this RE
(?<=age:\s) # preceded by 'age: '
.+ # characters you wish to match
(?=gender:) # followed by 'gender:'