我在一家小型数据科学咨询公司工作,我们正在尝试标准化我们的项目文件夹结构。我们从cookiecutter 结构开始,这是一个很好的基础。
然而,讨论点之一在于数据文件夹的子文件夹,其结构如下:
- 生的
- 临时
- 处理
让我们考虑以下情况:
- 客户端为您提供手动提取的 csv 文件 -> 这显然进入 Raw
- 您可以访问 SQL 数据库并进行无修改提取 -> 我猜仍然是 Raw 吗?
- 由于数据库非常大,您创建了一个半复杂的 SQL 查询作为功能的基础 -> 这是原始的还是临时的?
您应用的最佳实践是什么?你会推荐什么?
ps:非常欢迎按照这种结构构建的 Github 项目的链接