具有完全日期不平衡的文本分类和聚类

数据挖掘 分类 聚类 文本挖掘
2022-02-17 08:24:39

我有一组来自 PUBMED 的具有共同研究兴趣的作者的科学论文,我想:

  1. 对论文进行聚类并从中提取特征,以便在 PUBMED 中找到具有相似研究兴趣的其他作者
  2. 开发一种分类算法来确定给定作者是否与我的原始作者具有相似的研究兴趣。真的,我正在尝试寻找新的作者,并且能够判断我发现的作者是否与我的原始作者集相似。

不幸的是,因为我的数据只有一类,我有一个极端的数据不平衡问题。我应该如何解决这个问题?

因此,就我查看论文中术语的频率而言,结果喜忧参半。我也一直在使用无监督学习来提取具有混合结果的特征。

假设我的论文集和作者具有相似的研究兴趣。我是否需要我知道不在集合中的论文和作者来构建分类算法?

我应该将一篇论文看成一个整体,还是应该看每个作者写的论文进行分类,而不是把论文看成一个整体?

我想我可以随机挑选其他论文并将其用作其他领域的示例。当然,随意取纸也有漏报的可能。

我正在使用带有 tm 包的 R 来进行挖掘。

1个回答

这个问题不是很清楚,但无论如何我都会尝试一下。

首先请注意,解决合着网络分析的主要方法不是你提到的,而是作为合着的网络科学技术是一种社交网络

在这个必要的提示之后,让我们回到从 NLP 角度解决问题的问题本身

不幸的是,因为我的数据已经属于一类,所以我遇到了一个极端的数据不平衡问题。应该如何解决这个问题?

你没有阶级不平衡的问题类不平衡问题意味着您有多个类,其中一个或多个类比其他类大得多。但是你只有一堂课!这不是类不平衡问题。您只需要准确定义您的问题。

假设我的论文集和作者具有相似的研究兴趣。要构建分类算法,我是否需要我知道不在集合中的论文和作者?

取决于你想做什么!分类什么?您可以设置您的问题,例如同一领域的作者分类,然后您不需要额外的论文。您根据所有人的不同论文提取文本特征并训练您的分类器:

  1. 连接一个人论文的所有句子,称之为数据。个人的名字就是标签。当然,如果一篇论文有两个作者,那么文本将分配给他们两个。
  2. 从文本数据中提取特征。无监督特征提取不关心标签(TF-IDF就是一个例子),而监督方法则关心。
  3. 选择一个分类器并像往常一样开始您的学习阶段。

但是,如果您将问题设置为不同领域的作者分类,那么请确保您需要其他领域的数据!在这种情况下,不是每个人都是一个类,而是每个字段(包括该字段中的所有作者)变成一个标签。

我应该把论文看成一个整体,还是应该看每个作者写的论文进行分类,而不是把论文看成一个组?

很难理解你的意思,但我想我在上面回答了。取决于你的问题!如果要对社区内的作者进行分类,则该作者的所有论文都是一个文本数据对象。

我想我可以随机挑选其他论文并将示例中的那些用于不具有共同研究兴趣的论文。当然,随意取纸也有漏报的可能。

再次难以理解,但无论如何。在这种情况下,您最好从另一个字段收集数据。随机挖掘一些其他领域的论文,构建一个新的NOT THIS FIELD类。然后进行二进制分类(逻辑回归在 TF-IDF 特征上效果很好)。应该指出的是,由于您的数据是文本,因此您无法涵盖不在主类中的所有文本,因此将您的问题限制在域中的特定边界。

希望我能帮忙:)

PS:这个问题需要手术。我会尽快编辑它,请检查我的编辑在概念上是否正确。