我正在尝试可视化 github 存储库数据上的语言标签。我有 16k github 存储库的名称,以及与每个存储库相关的所有语言。下面是我想出的和弦图。
但是,我发现和弦图并不能很好地表示数据,因为
它没有显示一对多的关系。例如,大多数带有 JavaScript 的存储库将同时具有 html 和 css。这表示为 JavaScript-HTML 和 JavaScript-css,但不是全部一起表示。
弧的大小不代表数据集中的 repos 数量。例如,在我的数据集中使用 JavaScript 的 repos 数量约为 6k,然而,arc 约为 17k。这是因为每个 repo 中有多种语言。例如,如果一个 repo 包含 JavaScript、HTML、CSS 和 Python,那么弧的长度将为 3。
您对更好地可视化这些数据有什么建议吗,谢谢。这个特定的一个是 d3 和弦图,但可视化可以使用任何包(Python 或 JavaScript 或 R)完成。
这是数据集,如果您有兴趣,请在 Google BigQuery 上进行此查询
SELECT
sample_repos.repo_name,
sample_repos.watch_count,
languages.LANGUAGE
FROM
`bigquery-public-data.github_repos.languages` languages
INNER JOIN
`bigquery-public-data.github_repos.sample_repos` sample_repos
ON
languages.repo_name = sample_repos.repo_name
WHERE sample_repos.repo_name IN (
SELECT repo_name[OFFSET(0)]
FROM `bigquery-public-data.github_repos.commits`)
ORDER BY sample_repos.watch_count DESC
LIMIT 16000


