数据挖掘 - 组织复杂的分析项目 - 吾爱随笔录

有人有组织大型数据分析项目的经验吗？似乎大多数数据科学项目组织工具（DVC、datmo、mlflow 等）都采用了以模型为中心的方法。

另一方面，我目前正在处理的项目不需要任何预测模型，但包含大量需要探索、分析、总结和重新组织的数据（丰富的地理数据集可能非常多维和混乱））。结果项目目录大致如下所示：

./DS-project
|
|__ data/
|
|__notebooks/
|    |
|    |__thing_to_analyze_1/
|    |    |
|    |    |__01_aa_analysis1.ipynb
|    |    |__01.1_aa_analysis1.ipynb
|    |    |__02_aa_analysis2.ipynb
|    |    ...
|    |
|    |__thing_to_analyze_2/
|    ...
|
|__src/
|    |
|    |__utility_package_1/
|    |    |
|    |    |__README.rst
|    |    |__setup.py
|    |    ...
|    |
|    |__utility_package_2/
|    ...
|
|__README.md
|__environement.yml

目前最大的痛苦是笔记本造成的。我们遵循此处建议的笔记本命名约定，但由于thing_to_analyze_x文件夹的数量和其中笔记本的数量，很难找到以前的研究（即使笔记本摘要记录在某种 README 文件中）。

有没有人有处理此类项目的经验？基于日期的项目/笔记本命名似乎很有趣（例如：）2019-03-05_thing-to-analyze-1，但我担心它可能会让人更难理解哪些东西是旧的，哪些东西最近被重新访问过。