Python - 检查文本是否是句子?

数据挖掘 Python nlp
2022-02-22 11:54:53

所以我有一个获取文章的刮板。但是,它并不总是能正常工作。我想更好地检查它何时不起作用。例如,以下是我希望它刮掉的东西:

你好。这是一个组合在一起的句子序列。他们不必遵循这个确切的格式,但是非常接近这个的东西会很好!基本上像这样的东西加上偶尔奇怪的格式,这取决于刮什么。

但我也可能会得到一些显然不是文本的东西:

注册 | 登录 | 登出 | 登录您的帐户 忘记密码?{* #signInForm *}....

是否有任何 python 库可以检查字符串的一般格式?基本上,我在刮文章,想看看刮出来的文字是不是article-y。如果没有 python 库,最好的方法是某种正则表达式匹配吗?这有可能做得相当好吗?

任何帮助将不胜感激,谢谢!!

1个回答

我会尝试一种半监督学习技术,它会将碎片传递给你,并要求你给它们贴上标签。您要查找的内容可能是特定于域的,具体取决于站点的类型。最后,您可能会有一堆启发式方法,例如:

  • 如果长度 < 50 并且包含“LOGOUT”、“REGISTER”、“SIGN IN”、“LOGIN”
  • 如果计数“|” > 1
  • 如果所有大写单词的计数> 1