我有许多大型数据集(10GB),每个数据集都从我远程下载到桌面上的 NoSQL 数据库中获取数据。我想编写一个 Python 程序来运行一些自定义数据分析(绘图 - 最好是交互式的)并以 html 或 pdf 格式导出自定义报告。
我想知道人们如何做到以下几点:
1) 存储数据。目前我有纯文本文件(每个文件都有固定数量的列的行 - 大多数数据都是分类的)。将它们保存在某些数据库(SQL)或 hdf5 中是否有意义?任何提示哪个是可取的?
2) 你会为图表推荐哪个绘图库?我见过关于 bookeh 和 matplotlib 支持交互式小部件,但我不知道人们通常使用什么。
3) 我可以将分析结果导出到 IPython 笔记本中,然后以编程方式导出到 html 中吗?