数据预处理的10个小技能,附Pandas实现
数据预处理常用的处理步骤,包括找出异常值、处理缺失值、过滤不合适值、去掉重复行、分箱、分组、排名、category转数值等,下面使用 pandas 解决这些最常见的预处理任务。
找出异常值常用两种方法
标准差法异常值平均值上下1.96个标准差区间以外的值 分位数法小于 1/4分位数减去 1/4和3/4分位数差的1.5倍,大于3/4减去 1/4和3/4分位数差的1.5倍,都为异常值
技能1 标准差法
import pandas as pd df = pd.DataFrame({'a':[1,3,np.nan],'b':[4,np.nan,np.nan]}) # 异常值平均值上下1.96个标准差区间以外的值 meangrade = df['a'].mean() stdgrade = df['a'].std() range = meangrade + stdgrade 1.96 botrange = meangrade - stdgrade 1.96 # 过滤区间外的值 copydf = df copydfcopydf = copydf.drop(copydf[copydf['a'] > range].index) copydfcopydf = copydf.drop(copydf[copydf['a'] < botrange].index) copydf
技能2分位数法
q1 = df['a'].quantile(.25) q3 = df['a'].quantile(.75) iqr = q3-q1 range = q3 + iqr 1.5 botrange = q1 - iqr 1.5 copydf = df copydfcopydf = copydf.drop(copydf[copydf['a'] > range].index) copydfcopydf = copydf.drop(copydf[copydf['a'] < botrange].index) copydf
技能3处理空值
np.nan 是 pandas 中常见空值,使用 dropna 过滤空值,axis 0 表示按照行,1 表示按列,ho 默认为 any ,意思是只要有一个 nan 就过滤某行或某列,all 所有都为 nan
# axis 0 表示按照行,all 此行所有值都为 nan df.dropna(axis=0, ho='all')
技能4充填空值
空值一般使用某个统计值填充,如平均数、众数、中位数等,使用函数 fillna
# 使用a列平均数填充列的空值,inplace true表示就地填充 df["a"].fillna(df["a"].mean(), inplace=True)
技能5修复不合适值
假如某门课最高分100,如果出现 -2, 120 这样的值,显然不合理,使用布尔类型的Series对象修改数值
df.loc[(df['a'] < -2,'a')] = 0 df.loc[(df['a'] >= 100,'a')] = 100
技能6过滤重复值
过滤某列重复值,使用 drop_duplicated 方法,第一个参数为列名,keep关键字等于last一次出现此值行
df.drop_duplicates(['Names'], keep='last')
技能7apply 元素级去掉特殊字符
某列单元格含有特殊字符,如标点符号,使用元素级操作方法 apply 干掉它们
import string exclude = set(string.punctuation) def remove_punctuation(x): x = ''.join(ch for ch in x if ch not in exclude) return x # ԭdf Out[26]: a b 0 c,d edc.rc 1 3 3 2 d ef 4 # 过滤a列标点 In [27]: dfdf.a = df.a.apply(remove_punctuation) In [28]: df Out[28]: a b 0 cd edc.rc 1 3 3 2 d ef 4
技能8cut 数据分箱
将百分制分数转为A,B,C,D四个等级,bins 被分为 [0,60,75,90,100],labels 等于['D', 'C', 'B', 'A']
# 生成20个[0,100]的随机整数 In [30]: a = np.random.randint(1,100,20) In [31]: a Out[31]: array([48, 22, 46, 84, 13, 52, 36, 35, 27, 99, 31, 37, 15, 31, 5, 46, 98,99, 60, 43]) # cut分箱 In [33]: pd.cut(a, [0,60,75,90,100], labels = ['D', 'C', 'B', 'A']) Out[33]: [D, D, D, B, D, ..., D, A, A, D, D] Length: 20 Categories (4, object): [D < C < B < A]
技能9rank 排名
rank 方法,生成数值排名,ascending 为False,分值越大,排名越靠前
In [36]: df = pd.DataFrame({'a':[46, 98,99, 60, 43]} )) In [53]: df['a'].rank(ascending=False) Out[53]: 0 4.0 1 2.0 2 1.0 3 3.0 4 5.0
技能10category列转数值
某列取值只可能为有限个枚举值,往往需要转为数值,使用get_dummies,或自己定义函数
pd.get_dummies(df['a'])
自定义函数,结合 apply:
def c2n(x): if x=='A': return 95 if x=='B': return 80 df['a'].apply(c2n)
以上结合数据预处理的十个小任务,分别找到对应pandas中的实现。
人工智能培训
- 真正能和人交流的机器人什么时候实现
- 国产机器人成功完成首例远程冠脉介入手术
- 人工智能与第四次工业革命
- 未来30年的AI和物联网
- 新三板创新层公司东方水利新增专利授权:“一
- 发展人工智能是让人和机器更好地合作
- 新春贺喜! 经开区持续推进工业互联网平台建设
- 以工业机器人为桥 传统企业如何趟过智造这条河
- 山立滤芯SAGL-1HH SAGL-2HH
- 2015国际智能星创师大赛火热报名中!
- 未来机器人会咋看人类?递归神经网络之父-像蚂
- 成都新川人工智能创新中心二期主体结构封顶
- 斯坦德机器人完成数亿元人民币C轮融资,小米产
- 到2020年,智能手机将拥有十项AI功能,有些可能
- 寻找AI机器人的增长“跳板”:老龄化为支点的产
- 力升高科耐高温消防机器人参加某支队性能测试