对小句子样本使用 NLP 可以做什么?

数据挖掘 机器学习 深度学习 分类 nlp 文本挖掘
2022-03-16 00:38:30

我是 NLP 新手。我有几个 100 个文本句子(数据框中的 100 行),一个句子的平均字长为 10。我想知道使用 NLP 技术可以得出哪些有趣的见解(从简单描述到高级)。我不打算预测任何事情,而是分析并获得一些有趣的见解。

我已经想到了可以使用我拥有的示例数据完成的以下项目。

  1. 统计句子中每个单词出现的次数,最后找出我拥有的句子列表中最常用(顶部)的单词和最少使用(底部)的单词

  2. 使用 NER 查找每个句子中的实体。在我的句子中,哪个实体被讨论得最多?

  3. 使用文本相似度指标查找哪些句子相似。

  4. 我可以识别句子的情绪

  5. LDA 可以用来识别句子的主题(平均有 10 个单词)而我的数据集本身只有 100 个句子吗?

  6. 你认为创建句法/依赖树有什么用?我们能从中推断出什么?这可能对语言学家有用,但它可以帮助外行的最终用户/业务人员获得一些见解吗?关于该主题的任何简单解释或将我引导至资源都会有所帮助

  7. 我认为我们无法总结它,因为我的句子平均只包含 10 个单词

你能帮我解决 q5、q6 和 q7 的问题吗?

你认为还有什么可以做的吗?你认为还有什么可以做的。

1个回答

首先,我认为值得一提的是,在使用小数据集进行探索性研究的背景下,手动分析肯定与应用 NLP 方法(如果不是更多)一样有用,因为:

  • 小尺寸是手动学习的优势,而自动方法的劣势。
  • 除了发现一般模式或见解之外,没有特别的目标,因此自动无监督方法的结果不太可能表现出任何无法直接观察到的东西。

话虽这么说,一个人总是可以应用自动方法,如果只是为了观察他们能捕捉到什么。

  • 观察频率(第 1 点)总是有用的。您可以考虑带/不带停用词的变体,并使用文档频率(包含一个术语的文档数量)而不是术语频率。
  • 第 3 点和第 5 点密切相关:LDA 本质上是通过使用条件词概率作为隐藏变量的相似性对句子进行聚类。但是小尺寸使得任何概率方法都变得困难,并且可能有许多句子与其他句子几乎没有共同之处。
  • 依赖解析的句法分析可以完美地应用于任何句子,但问题是什么?据我所知,这种高级分析不用于探索性研究,它用于需要获得完整句子的详细表示的特定应用。传统上,这用于涉及语义的高级任务,通常与语义角色标签和/或关系提取一起使用。我什至不确定这种符号表示是否仍在使用,因为端到端神经方法已成为大多数应用程序中的最先进技术。
  • 我同意总结一个简短的句子是没有意义的。不过,如果有意义的话,您可以尝试总结整套句子。

在使用任何可能的 NLP 方法的逻辑中,您可以在列表中添加一些内容:

  • 词元化,这实际上可以用作预处理。
  • 是否使用嵌入:一方面,这有助于通过嵌入空间找到语义相似性,另一方面,小尺寸使得将数据投影到高维空间中是有问题的。
  • 使用诸如Pointwise Mutual Information之类的关联度量来查找 colocations(倾向于在同一个句子中一起出现的单词) 。
  • 拼写纠正和/或用字符串相似性度量匹配相似的词。
  • 不太可能对它感兴趣,但也有文体方法,即研究文本的风格而不是内容。这些范围从检测正式程度或可读性等一般风格到试图预测两篇文本是否由同一个人创作。