构建和挖掘这组数据的最佳方法是什么?

数据挖掘 机器学习 聚类 数据集 可视化 数据清理
2022-03-07 10:13:29

http://pastebin.com/K0eq8cyZ

我浏览了“费城永远阳光明媚”的每一季,并确定了每一集的角色分组(D=Dennis,F=Frank,C=Charlie,M=Mac,B=Sweet Dee)。我还出演了一些剧集的“赢家”。我怎样才能最好地组织这些数据,在什么类型的数据库中,以及哪些数据科学工具可以从中提取最多的信息?

我正在考虑制作一个这样的 SQL 表:

             (1)     (2)      (3)     (4)     (5)
Episode# | Dennis | Frank | Charlie | Mac | Sweet Dee 
008      |    5   |  3,4  |  2,4    | 2,3 |    1
010      |    5   |  3,4,6|  2,4,6  |2,3,6|    1  

...其中所有值都是整数数组。6 代表角色赢得了这一集,每个数字代表 5 个角色中的一个。想法?

1个回答

我怎样才能最好地组织这些数据,在什么类型的数据库中?

一个简单的关系数据库应该可以,但如果你愿意,你也可以使用一个“花哨的”图形数据库。一张表用于用户,一张用于“交互”。每个交互都会有两个参与者的外键列,标记为赢家和输家,以及它发生的互动的情节数。

还有关于以视觉方式表示这些数据的最佳方式的任何想法吗?

社交网络分析的图形表示不言而喻。这里有一些 论文和一个subreddit的灵感。在你的情况下,有一个明确的赢家/输家竞争的概念,所以你可以让你的图表有方向。让角色成为节点,并为每次交互添加从获胜方到失败方的有向边。折叠重复交互等。这种方法可以让您快速识别整体赢家和输家,以及简单的谁与谁互动。