通过遍历 pandas 数据框中的行来创建新列

数据挖掘 Python 数据清理 熊猫 蟒蛇
2021-09-26 05:24:09

我有一个像这样的熊猫数据框(X11):实际上我有 99 列,最多 dx99

    dx1      dx2    dx3    dx4
0   25041   40391   5856    0
1   25041   40391   25081   5856
2   25041   40391   42822   0
3   25061   40391   0       0
4   25041   40391   0       5856
5   40391   25002   5856    3569

我想为 25041,40391,5856 等单元格值创建额外的列。因此,如果 25041 出现在任何 dxs 列中的特定行中,则将有一个值为 1 或 0 的列 25041。我正在使用此代码,当行数较少时它可以工作。

mat = X11.as_matrix(columns=None)
values, counts = np.unique(mat.astype(str), return_counts=True)

for x in values:
    X11[x] = X11.isin([x]).any(1).astype(int)

我得到这样的结果:

dx1     dx2     dx3    dx4  0   25002   25041   25061   25081   3569    40391   42822   5856
25041   40391   5856    0   0   0       1       0       0       0          1        0       1
25041   40391   25081  5856 0   0       1       0       1       0            1      0       1
25041   40391   42822   0   0   0       1       0       0       0           1       1       0
25061   40391   0       0   0   0       0       1       0       0          1        0       0
25041   40391   0    5856   0   0       1       0       0       0          1        0       1
40391   25002 5856   3569   0   1       0       0       0       1          1        0       1

当行数为数千或数百万时,它会挂起并持续很久,我没有得到任何结果。请注意,单元格值不是列所独有的,而是在多列中重复。例如,40391 发生在 dx1 和 dx2 中,等等 0 和 5856 等。知道如何改进上述逻辑吗?

2个回答

在 pandas 中有一个更 Pythonic 的解决方案......

在我的笔记本电脑上的 1000 万行中,这需要不到一秒钟的时间:

for x in X11.E.unique():
    X11[x]=(X11.E==x).astype(int)
X11

以下是列出的详细信息:

简单的小数据框 -

import numpy as np
import pandas as pd

X11 = pd.DataFrame(np.random.randn(6,4), columns=list('ABCD'))
X11['E'] = [25223, 112233,25223,14333,14333,112233]
X11

简单的小数据框

二值化方法 -

for x in X11.E.unique():
    X11[x]=(X11.E==x).astype(int)
X11

在此处输入图像描述

具有 1000 万行的数据框 -

pd.set_option("display.max_rows",20)
X12 = pd.DataFrame(np.random.randn(10000000,4), columns=list('ABCD'))
foo = [25223, 112233,25223,14333,14333,112233]
bar=[]
import random
for x in range(10000000):
    bar.append(random.choice(foo))
X12['E'] = bar
X12

在此处输入图像描述

1000 万行数据帧的定时二值化(又名 one-hot 编码) -

import time
start = time.clock()

for x in X12.E.unique():
    X12[x]=(X12.E==x).astype(int)
elapsed = (time.clock() - start)

print "This is the time that this took in seconds: ",elapsed

X12

在此处输入图像描述

希望这可以帮助!

看起来您想从 pandas 数据框列创建虚拟变量。幸运的是,pandas 有一个特殊的方法:get_dummies(). 这是一个代码片段,您可以根据需要进行调整:

import pandas as pd
data = pd.read_clipboard(sep=',')

#get the names of the first 3 columns
colN = data.columns.values[:3]

#make a copy of the dataframe
data_transformed = data

#the get_dummies method is doing the job for you
for column_name in colN:
    dummies = pd.get_dummies(data_transformed[column_name], prefix='value', prefix_sep='_')
    col_names_dummies = dummies.columns.values

    #then you can append new columns to the dataframe
    for i,value in enumerate(col_names_dummies):
        data_transformed[value] = dummies.iloc[:,i]

这是输出data_transformed

         dx1    dx2    dx3   dx4    dx5    dx6    dx7  value_25041  value_25061  0  25041  40391   5856     0  V4511  V5867  30000            1            0   
    1  25041  40391  25081  5856   5363   3572      0            1            0   
    2  25041  40391  42822     0   5856      0      0            1            0   
    3  25061  40391      0     0      0      0      0            0            1   
    4  25041  40391      0  5856  25081  V4511  25051            1            0   

      value_40391  value_0  value_5856  value_25081  value_42822  
    0            1        0           1            0            0  
    1            1        0           0            1            0  
    2            1        0           0            0            1  
    3            1        1           0            0            0  
    4            1        1           0            0            0