在哪里可以找到常见 Python 包的统计相关文档?

数据挖掘 Python 统计数据 熊猫
2021-09-20 09:38:42

我试图吸引我的实验室从 Matlab 和 R 过渡到 Python。在这一点上的主要反对意见似乎是 Python 的分析库没有足够好的文档记录。鉴于 Python 的多产性,我怀疑存在足够详细的文档,而我们根本找不到它。

例子

最近,我需要对信号(一维向量)进行上采样,并找到了一个名为resample. 与 Matlab 和 R 相比,pandas 文档没有告诉我使用哪种插值重采样(线性、三次样条、pchip?)。

有什么地方可以找到有关此库和其他库的此类信息,最好是方程式或对论文的引用?我知道我可以分析源代码,但这不是最有效的。如果您知道 R,我基本上是在寻找与CRAN等效的 Python (PDF 警告)。

谢谢!

2个回答

从 Matlab 切换到 Python 将在一定程度上取决于您所在的领域(例如,如果您从事图像处理/成像,Matlab 非常可靠,因此切换会更加困难)以及您同事的固执/老板。虽然 Matlab 的文档很容易找到,但它也是你所得到的,而 Python 包通常有不错的文档以及关于 SE 的无数帖子,其中有人可能已经回答了你的问题。

Python 最大的优点之一是它是开源的,但它会使找到合适的工具稍微耗时一些。你的例子是关于重采样。Pandasresample是为时间序列设计的(参见pandas doc)。所有的论点都被描述了,但如果我真的需要更深入地理解任何东西,我也可以查看源代码。或者我在网上搜索一些例子:http: //benalexkeen.com/resampling-time-series-data-with-pandas/

但似乎您实际上对插值函数感兴趣。如果我们搜索“Python 插值”,我们会发现一些方法。看起来 Scipy 有一个广泛的插值包:https ://docs.scipy.org/doc/scipy/reference/interpolate.html

弄清楚如何在 Python 中搜索你需要的东西需要一些时间,但是一旦你掌握了窍门,网上就有很多很棒的各种应用程序的例子。另外,在 Python(和 R)中绘图远远超出了 Matlab(c'mon mathworks)。最后,您可以做我所做的,除非确实有必要,否则完全拒绝使用 Matlab,并希望他们不会解雇您!

我认为文档,至少对于您的示例而言,并不太晦涩难懂。它没有告诉你它使用什么样的插值,因为它不使用任何:resample是一个延迟操作。为了使其工作,您必须将它与执行插值的函数一起调用,例如series.resample(frequency).mean()series.resample(frequency).interpolation('cubic')(从文档中的示例可以看出)。有时,查看发行说明以获取更多信息可能会有所帮助。

Scipy 和 Numpy 有时不是很详细,但它们至少包含相当数量的参考资料和更多信息。(这里还有一个关于 Matlab 与 Numpy 的部分。如果您熟悉dplyrR语言,那么pandas 备忘单可以帮助您快速比较 R 和 pandas 之间的典型数据处理操作。)

我不知道包含整个库的“第二个更详细的文档”。您可能不得不求助于书籍(当然,这些书籍并不完整或始终是最新的)。