使用 Python 进行分析的新手,所以请保持温和 :-) 我找不到这个问题的答案 - 如果它已经在其他地方以不同的格式得到了回答,我们深表歉意。
我有一个零售店的交易数据集。变量和解释是:
- section:商店的section,一个str;
- prod_name:产品名称,一个str;
- 收据:发票编号,int;
- 收银员,收银员编号,int;
- cost:物品的成本,一个浮点数;
- 日期,格式为 MM/DD/YY,一个 str;
- 时间,格式为 HH:MM:SS,一个 str;
单次交易中购买的所有产品的收据具有相同的价值,因此可用于确定单次交易中的平均购买次数。
解决此问题的最佳方法是什么?我本质上想用groupby()
它自己相同的出现来对收据变量进行分组,以便我可以创建一个直方图。
使用 pandas DataFrame 中的数据。
编辑:
这是一些带有标题的示例数据(prod_name 实际上是一个十六进制数字):
section,prod_name,receipt,cashier,cost,date,time
electronics,b46f23e7,102856,5,70.50,05/20/15,9:08:20
womenswear,74558d0d,102857,8,20.00,05/20/15,9:12:46
womenswear,031f36b7,102857,8,30.00,05/20/15,9:12:47
menswear,1d52cd9d,102858,3,65.00,05/20/15,9:08:20
从这个样本集中,我期望一个收据的直方图显示两次出现的收据 102857(因为那个人在一次交易中购买了两件物品)和一次分别出现的收据 102856 和收据 102858。注意:我的数据集并不大,大约100 万行。