有人有组织大型数据分析项目的经验吗?似乎大多数数据科学项目组织工具(DVC、datmo、mlflow 等)都采用了以模型为中心的方法。
另一方面,我目前正在处理的项目不需要任何预测模型,但包含大量需要探索、分析、总结和重新组织的数据(丰富的地理数据集可能非常多维和混乱) )。结果项目目录大致如下所示:
./DS-project
|
|__ data/
|
|__notebooks/
| |
| |__thing_to_analyze_1/
| | |
| | |__01_aa_analysis1.ipynb
| | |__01.1_aa_analysis1.ipynb
| | |__02_aa_analysis2.ipynb
| | ...
| |
| |__thing_to_analyze_2/
| ...
|
|__src/
| |
| |__utility_package_1/
| | |
| | |__README.rst
| | |__setup.py
| | ...
| |
| |__utility_package_2/
| ...
|
|__README.md
|__environement.yml
目前最大的痛苦是笔记本造成的。我们遵循此处建议的笔记本命名约定,但由于thing_to_analyze_x文件夹的数量和其中笔记本的数量,很难找到以前的研究(即使笔记本摘要记录在某种 README 文件中)。
有没有人有处理此类项目的经验?基于日期的项目/笔记本命名似乎很有趣(例如:)2019-03-05_thing-to-analyze-1,但我担心它可能会让人更难理解哪些东西是旧的,哪些东西最近被重新访问过。