学习从文本中解析元素并将它们分配给类别

数据挖掘 机器学习 数据挖掘 文本挖掘
2022-02-21 04:31:40

我正在尝试使用从非结构化文本解析的值生成一个表。以下是可能有数千个条目的几个示例。对于每个条目,我想确定标题,将电影分配给一个类别(例如“SciFi”),等等。

"The Lord of the Rings Trilogy, Blu-Ray, Extended Edition",
"Lord of the Rings, DVD",
"Blu-Ray LOTR: The Two Towers",
"Star Wars: Episode 4"

结果应如下所示:

Title                       Format    Category   Franchise
=====                       ======    ========   =========
Lord of the Rings Trilogy   DVD       Fantasy    LOTR
LOTR: The Two Towers        Blu-Ray   Fantasy    LOTR
Star Wars: Episode 4        NaN       SciFi      Star Wars

一种天真的方法是搜索诸如“指环王”或“星球大战”之类的模式。模式搜索也可能是模糊的。然而,这将需要某种预定义的映射。

但是,我想知道数据挖掘是否有更聪明的方法。我知道文本分类算法(例如垃圾邮件分类器),但它们只有两个类。

我对自然语言处理了解不多,这似乎并不是更严格意义上的“自然语言”。

可以以任何方式(有足够的训练数据)学习这种非结构化文本的解析/映射吗?

我期待在如何解决这个问题上获得一些一般性的启发。

0个回答
没有发现任何回复~