与同事共享数据和模型的最佳实践是什么?

数据挖掘 机器学习 预测建模 数据集 数据 模型选择
2021-09-19 07:49:54

作为最近加入新团队的数据科学家,我想问问社区他们如何在同事之间共享数据和模型。目前,我不得不求助于将数据存储在某个中央服务器或我们所有人都可以访问的位置(这意味着 unix 权限等)。对于模型,我也倾向于将权重文件发送给我的同事并分享我的 github。两者我都觉得很麻烦。你们有些人做了什么?

4个回答

您可以尝试使用dvc,它代表数据版本控制。 https://dvc.org/

老实说,一旦您遇到严重的事情(大的或不断发展的),主要问题就是共享和更新数据。一旦为数据设计了解决方案,使其适应模型并不难。

根据数量和使用情况,可以在各种解决方案中存储、交换和访问数据。它可能是带有关联语言 (SAS) 的旧历史/外部解决方案、带有“实验室”界面的 linux 服务器上的内部数据库、云解决方案或只是用于更小的数据集的 csv 文件。一旦安排好并设计了访问这些数据的解决方案,就很容易将解决方案适应模型。有时它需要一些参与来正确处理权利,但如果架构是根据这个目标设定的,那应该不会太麻烦。

因此,关于模型,根据上下文,解决方案可能是在共享工作空间上共享 SAS 程序,在 linux 服务器上共享 python 模型,或者只是通过邮件发送 Excel 文件。最近,出现了新的“工具”并产生了新的解决方案:通过笔记本(Jupyter 笔记本或 R Markdown)共享实验并使用 Git 进行版本控制模型。

收听播客部分衍生剧集“硅海滩上的数据科学”,主持人采访了圣地亚哥市首席数据官 Maksim Percherskiy。

谈到他在圣地亚哥市使用的堆栈:(08:50) “我们移动数据的方式......我们使用Airflow [......] 而 Airflow 只是 Python。” Percherskiy 继续描述市政府背景下的数据共享问题。

对于大文件,我使用云存储(谷歌、亚马逊、微软或您公司所在的任何生态系统),文件夹以问题/项目票名称/编号命名。顺便说一下,这些服务支持文件版本控制。我只是附在票上的小文件。如果必须与少数人分享一些小而短暂的东西,我可以使用电子邮件或我们的公司聊天应用程序。