所以我有一个获取文章的刮板。但是,它并不总是能正常工作。我想更好地检查它何时不起作用。例如,以下是我希望它刮掉的东西:
你好。这是一个组合在一起的句子序列。他们不必遵循这个确切的格式,但是非常接近这个的东西会很好!基本上像这样的东西加上偶尔奇怪的格式,这取决于刮什么。
但我也可能会得到一些显然不是文本的东西:
注册 | 登录 | 登出 | 登录您的帐户 忘记密码?{* #signInForm *}....
是否有任何 python 库可以检查字符串的一般格式?基本上,我在刮文章,想看看刮出来的文字是不是article-y。如果没有 python 库,最好的方法是某种正则表达式匹配吗?这有可能做得相当好吗?
任何帮助将不胜感激,谢谢!!