组织复杂的分析项目

数据挖掘 Python 可视化 数据
2022-02-21 00:58:38

有人有组织大型数据分析项目的经验吗?似乎大多数数据科学项目组织工具(DVC、datmo、mlflow 等)都采用了以模型为中心的方法。

另一方面,我目前正在处理的项目不需要任何预测模型,但包含大量需要探索、分析、总结和重新组织的数据(丰富的地理数据集可能非常多维和混乱) )。结果项目目录大致如下所示:

./DS-project
|
|__ data/
|
|__notebooks/
|    |
|    |__thing_to_analyze_1/
|    |    |
|    |    |__01_aa_analysis1.ipynb
|    |    |__01.1_aa_analysis1.ipynb
|    |    |__02_aa_analysis2.ipynb
|    |    ...
|    |
|    |__thing_to_analyze_2/
|    ...
|
|__src/
|    |
|    |__utility_package_1/
|    |    |
|    |    |__README.rst
|    |    |__setup.py
|    |    ...
|    |
|    |__utility_package_2/
|    ...
|
|__README.md
|__environement.yml

目前最大的痛苦是笔记本造成的。我们遵循此处建议的笔记本命名约定,但由于thing_to_analyze_x文件夹的数量和其中笔记本的数量,很难找到以前的研究(即使笔记本摘要记录在某种 README 文件中)。

有没有人有处理此类项目的经验?基于日期的项目/笔记本命名似乎很有趣(例如:)2019-03-05_thing-to-analyze-1,但我担心它可能会让人更难理解哪些东西是旧的,哪些东西最近被重新访问过。

0个回答
没有发现任何回复~