数据挖掘 - 如何分类一行文本是不完整的自然语言片段还是完整的自然语言单元？ - 吾爱随笔录

我想为给定的字符串返回一个简单的“真”或“假”，以确定它是一个不完整的句子，比如“这就是他们通常的原因”，还是一个完整的实体，比如章节标题或列表，例如“The boardwalk”。

我愿意为这项任务使用任何机器学习架构，我可能会通过显示算法的周围线来为字符串提供上下文，以查看句子片段是否适合某些连续文本，但对于初稿我' 可能只会孤立地关注个别行。

解决这个问题的最标准方法是什么？

例如，也许已经有一些预训练模型知道某物是否是句子片段，我可以使用它。

否则，如果不是，我使用哪种神经网络是否重要，或者是否有来自 PyTorch 的最标准的神经网络？

有没有一种聪明的方法可以避免需要查找或创建训练数据？无监督学习方法能否自然地将文本行划分为相似和不同的行？

或者如果我需要训练它，是否有可以快速学习的算法，也许只有 100 个例子？

否则，我想我将不得不找到或创建大量数据来训练它？

解决这个问题的最佳方法是什么？