我需要从数据集中的文本列中提取产品名称。目前我正在使用正则表达式从文本中间提取产品名称,但有时产品名称拼写错误、不完整甚至被另一个词修改,这意味着我无法识别和提取产品名称。
我们目前在该列表中有大约 1500-2000 种产品,我有一个数据集,其中包含已经从大约 30,000 行中识别出的那些产品。有没有一种方法可以使用这些历史数据来改进对尚未识别的产品的识别?
只是一个例子:
The product X produced by the Company Y is used to treat skin diseases
注意:产品名称不会出现在固定位置。
