编写自定义数据分析程序

数据挖掘 Python 大数据
2022-03-07 08:14:27

我有许多大型数据集(10GB),每个数据集都从我远程下载到桌面上的 NoSQL 数据库中获取数据。我想编写一个 Python 程序来运行一些自定义数据分析(绘图 - 最好是交互式的)并以 html 或 pdf 格式导出自定义报告。

我想知道人们如何做到以下几点:

1) 存储数据。目前我有纯文本文件(每个文件都有固定数量的列的行 - 大多数数据都是分类的)。将它们保存在某些数据库(SQL)或 hdf5 中是否有意义?任何提示哪个是可取的?

2) 你会为图表推荐哪个绘图库?我见过关于 bookeh 和 matplotlib 支持交互式小部件,但我不知道人们通常使用什么。

3) 我可以将分析结果导出到 IPython 笔记本中,然后以编程方式导出到 html 中吗?

1个回答

1) 存储数据。目前我有纯文本文件(每个文件都有固定数量的列的行 - 大多数数据都是分类的)。将它们保存在某些数据库(SQL)或 hdf5 中是否有意义?关于哪个更可取的任何提示?

是的,存储在本地数据库中而不是使用大型 csv/文本文件是有意义的。正如您所说的数据来自 NoSQL 源,我假设是非结构化数据。因此,使用 SQL/关系存储是毫无疑问的。正如您所说您使用的是 Python,我建议您使用TinyDB,它既轻量级又易于处理。

2) 你会为图表推荐哪个绘图库?我见过关于 bookeh 和 matplotlib 支持交互式小部件,但我不知道人们通常使用什么。

Matplotlib 就足够了。实际上,这个问题比其他任何问题都更基于意见。您可以使用很多可视化库,例如 Bokeh、Seaborn 等。

3) 我可以将分析结果导出到 IPython 笔记本中,然后以编程方式导出到 html 中吗?

的,您可以直接在 Ipython 笔记本(Jupyter)中进行分析,它还支持 Markdown 和 HTML 单元格。

此外,您还可以通过 Jupyter Ipy 笔记本和 Matplotlib 使用小部件和交互式可视化。 相同的教程