数据挖掘 - 需要有关在 csv 文件上过滤熊猫数据框的帮助 - 吾爱随笔录

每天生成原始数据我们需要每天获得当月的成功率以及从一月到当月当月月底每个单元格的成功率。

原始数据具有以下列：

Column Names    example values
BackupClient    an4lsbk0304.an.ppp.com
BackupDriver    NetBackup
BackupMaster    an4lsbk0300.an.ppp.com
BackupPolicyID  an.72699
BackupPolicyName    ancfsv02a_aggr1_ancfs02n02b_L_an_vlw_atom_001
Cell    an
LastFullResult  Failure
LastFullStartTime   4-10-19 
PolicyType  NFS
Status  Active
LastFullExitCode    96

每列 – “单元格” 我需要找到以下结果列：

Oct Full ran, failed & not completed yet
Oct Full not ran
Oct full ran successful
Grand Total
Success rate for full ran in Oct
Success rate of full backup
Percentage of backup coverage

Oct Full run, failed & not completed yet: Oct full run, failed & not completed yet 表示 – “LastFullStartTime” – 包含当前月份日期和非空 && “LastFullResult” – 失败 && “状态代码” – 大于 1
Oct Full 尚未运行：

Oct Full not ran 表示 - “LastFullStartTime” - 为空或日期早于当前月份

十月完全运行成功 - 十月完全运行成功意味着 - “LastFullStartTime” - 包含当前月份日期 && “LastFullResult” - 成功
总计总计意味着 – 每个不同单元的 BackupPolicyID 计数；理想情况下应该等于3列以上（1+2+3=4）
10 月份完整运行的成功率 10 月份完整运行的成功率意味着 - 高于 column1/(column1+column3) 的百分比
完全备份成功率完全备份成功率是指 - 高于 column1/(column1+column2+column3) 的百分比
备份覆盖百分比备份覆盖百分比表示 – 上方（第 1 列+第 3 列）/第 4 列

代码：

import pandas as pd
import os
RD = pd.read_csv("C:/Users/acharbha/Desktop/fullbackup_success/python/raw_Data_success_Rate.csv")
print(RD.info())