数据挖掘 - 将文本提取到列中 - 吾爱随笔录

将文本提取到列中

数据挖掘文本挖掘橙橙色3

2022-02-27 10:01:11

我有一组客户报告，每个都在 ms word 文件中。它们都采用相似的模式，例如它们以姓名开头：--、年龄：--、日期：--等...

有没有办法从每个文件中提取特定字符串以形成数据集。

在橙色中，我能够将 word 文档编译成可以显示为一列的语料库（每个报告都在一个单元格中）。橙色是否有办法将字符串提取到列中（例如，如果在“年龄：”和“性别”之间）？

1个回答

也许您可以使用Orange3-Text插件、小部件预处理文本、标记化 > 正则表达式。源代码表明它是 Python正则表达式，因此您可以使用正则表达式模式，例如：

(?ix)        # ignore case, ignore comments and whitespace in this RE
(?<=age:\s)  # preceded by 'age: '
.+           # characters you wish to match
(?=gender:)  # followed by 'gender:'

其它你可能感兴趣的问题

上一篇用于整体分布的良好机器学习方法？下一篇查找正则化损失分量