我正在使用 Flask,我在其中加载了一些预训练的机器学习模型。我还使用 Gunicorn 通常与 2 或 4 个工作人员一起处理并行请求。
每个请求都包含一些我想分析的文本。
我将用一个例子来解释我的问题:我的带有 Gunicorn 和 2 个工作人员的 Flask 服务器已启动,并为每个工作人员加载一次我的模型。然后我发送两个并行请求。第一个将对具有 500 个文本的第一个工作人员进行分析,第二个对具有 2000 个文本的第二个工作人员进行分析。问题是第二个请求将在一段时间后停止分析并重新加载该工作人员的模型。
Gunicorn 是否包含默认的工作超时以及如何解决?