数据科学论坛的新手,这里是第一张海报!
这可能是一个特定的问题(希望不要太多),但我想其他人可能会感兴趣。
我正在寻找一种基本查询 GitHub 的方法,如下所示:
Give me a collection of all of the public repositories that have more than 10 stars, at
least two forks, and more than three committers.
结果可以采用任何可行的形式:JSON 数据转储、网页的 URL 等。它很可能包含来自 10,000 个存储库的信息或其他大型信息。
这种事情是否可能使用 API 或其他一些预先构建的方式,或者我将不得不构建自己的自定义解决方案来尝试抓取每个页面?如果是这样,这有多可行,我该如何处理?