数据框的命名约定

数据挖掘 r 熊猫
2021-09-17 12:31:28

我经常发现自己编写如下代码(过于简单的示例)

df = read_csv('customer_data_export.csv')
df2 = df.query("date > '2017-01-10'")
data = df_filtered.groupby('transaction_id').sum()
plot_data = pivot_table(data, columns='weekday', rows='n_items')
# Etc etc

基本上问题在于,虽然为列(作为随机变量)提出语义名称相对容易,但我很难为转换后的数据帧的每个步骤提出有意义的名称。此外,我更喜欢使用短名称以使代码更易于键入。(在 Jupyter 笔记本中工作,制表符完成不是最好的)。

人们在这种事情上遵循哪些最佳实践?

1个回答

为什么不给他们一个描述他们目的的名字呢?

df_csv = read_csv('customer_data_export.csv')
df_date_filtered = df.query("date > '2017-01-10'")
df_grouped_by_trans_id = df_date_filtered.groupby('transaction_id').sum()

#cleanup
rm(df_csv, df_date_filtered)

plot_data = pivot_table(df_grouped_by_trans_id, columns='weekday', rows='n_items')