在 Java/Scala 中总结和可视化 CSV?

数据挖掘 工具 可视化 斯卡拉 CSV
2021-09-24 20:57:02

我想总结(如在 R 中)CSV 的内容(可能在加载它或将其存储在某处之后,这不是问题)。摘要应包含 CSV 文件中每个数字(整数或实数)维度的数据的四分位数、平均值、中位数、最小值和最大值。标准偏差也会很酷。

我还想生成一些图来可视化数据,例如 3 对相关性更高的变量(相关系数)的 3 个图和 3 对相关性最小的变量的 3 个图。

R 只需要几行代码就可以实现这一点。是否有任何库(或工具)可以在 Java 或 Scala 中实现类似的简单(如果可能,高效)实现?

PD:这是先前(过于宽泛)问题的特定用例。

3个回答

Checkout Breeze 和 apache commons math 用于数学,ScalaLab 提供了一些关于如何在 Scala 中绘制事物的好例子。

我已经设法获得了一个环境设置,这只是几行。我实际上并没有使用 ScalaLab,而是借用了它的一些代码,而是使用 Intellij 工作表。

如果您的数据是数字,请尝试将其加载到 ELKI (Java) 中。有了它,NullAlgorithm它会给你散点图、直方图和平行坐标图。读取数据速度快;只有当前基于 Apache Batik 的可视化是缓慢的,因为它使用的是 SVG。:-( 我主要使用它“无头”。

它还有用于各种统计信息的类(包括数据流上的高阶矩),但我还没有在默认 UI 中看到它们。

我会仔细看看 Apache Spark 的模块之一:MLlib