在 Excel 中处理大型数据集的好方法是什么?

机器算法验证 擅长 大数据
2022-04-01 17:53:50

我现在有一个 .dbf 格式的大型数据集,我想做的是能够在 Excel 中轻松操作它,并执行小计之类的操作并计算标准偏差和比率。

数据集的详细信息;该数据集包含购物者信息。它有 120 万行和 20 列,其中每行都是唯一的购物者,而列保存他们的购物数据(他们购买了什么)。

我正在使用 Office 2007 程序,我最了解 Excel,但想知道我可以使用哪些替代方法来实现我的目标(小计、计算标准差和比率)。

3个回答

如果你觉得你将来可能会开始更多这样非常大的 Excel 类型的项目,那么你应该考虑安装并花 10 个小时学习 R 的基础知识(免费),这将使你可以在一个问题中完成你在问题中提到的内容比 Excel 更有效的方式。
R 初学者 PDF

您可以在StackOverflow和此处询问有关 R 的问题。

尽管我总是建议使用 R,但您仍然可以使用 python 实现您想要的。

至少有一个用于读取dbf 文件的包。

此外,scipy提供了大量的统计分析功能。例如,库ScientifyPython可能包含您需要的功能。

最好的办法是检查scipy.org在那里你会找到你想要的。

(但是学习 R 是个好主意!!)

Excel 2010 和 2013 有一个名为 power pivot的免费 Microsoft 插件,可让您处理数百万行。它是一个列式数据库,专为创建数据透视表、小计等而设计,并具有预定义的标准偏差等。您可能还会查看其他 microsoft addins 电源查询(数据输入)、电源视图(可视化)和电源映射(映射)