我正在研究一个用例,但我不确定最好的方法:为了分析基于网络的音乐应用程序的用户行为,我们保留了自 2009 年以来播放的所有歌曲。我们存储此信息在平面文件中,每个文件都包含一天播放的歌曲。每个文件包含 50M 行,我们有 19M 用户。我们的整个歌曲目录包含 3500 万首曲目。
这些文件的格式如下:
id-user | country | id-artist | id-track
问题:我想用他或她播放过的歌曲来代表每个用户;此配置文件将由生产站点使用。有没有人建议处理整个链条的最佳方式是什么?