您的位置: 网站首页> Pandas教程> 当前文章
pandas的groupby使用apply分组排序
老董-我爱我家房产SEO2022-04-04161围观,144赞
前面的文章依次介绍过pandas分组操作中高频出现的函数,如agg、transform、filter,如果想彻底了解pandas分组聚合各类操作可以查看pandas的groupby使用大全。
在实际处理数据中,pandas分组后的对象还可以使用apply函数,apply可以帮助我们实现前面三类函数不能直接做到的事情。比如,分组排序。本文我们详细介绍下DataFrameGroupBy对象的apply应用。
(ps:不太建议大家用groupby配合apply,除非你熟悉这里面的各种坑,否则可能出现一些未知的错误,最好是按部就班的通过循环每个子组来操作,最后再拼接子组)
1、先看下面1个需求
有如下df对象,请把把每个城市作为一组,按照register列倒序。
# -*- coding:UTF-8 -*-
import pandas as pd
df = pd.read_excel('test.xlsx')
print(df)
city quyu register login 0 bj chaoyang 100 60 1 bj chaoyang 110 70 2 bj haidian 120 80 3 bj haidian 130 90 4 sh pudong 105 30 5 sh pudong 115 40 6 sh hongkou 125 50 7 sh hongkou 135 60
可能第一反应是先把城市提取出来,然后循环每个城市作为单独的df排序,最后各个城市再拼接成1个df。实际上用groupby和apply可以直接实现。DataFrameGroupBy对象使用apply时apply接收的函数的参数是分组后的每个子df,看案例:
# -*- coding:UTF-8 -*-
import pandas as pd
def sort(x):
return x.sort_values('register',ascending=False)
df = pd.read_excel('test.xlsx')
df_res = df.groupby(['city']).apply(sort)
print(df_res)
city quyu register login
city
bj 3 bj haidian 130 90
2 bj haidian 120 80
1 bj chaoyang 110 70
0 bj chaoyang 100 60
sh 7 sh hongkou 135 60
6 sh hongkou 125 50
5 sh pudong 115 40
4 sh pudong 105 30
2、升级一下需求,按每个城市每个区域作为一组,按register列倒序,并且组内添加上名次
# -*- coding:UTF-8 -*-
import pandas as pd
def sort(x):
x2 = x.sort_values('register',ascending=False)
x2['名次'] = x2['register'].rank(method="dense",ascending=False)
return x2
df = pd.read_excel('test.xlsx')
df_res = df.groupby(['city','quyu']).apply(sort)
print(df_res)
city quyu register login
city quyu
bj chaoyang 1 bj chaoyang 110 70
0 bj chaoyang 100 60
haidian 3 bj haidian 130 90
2 bj haidian 120 80
sh hongkou 7 sh hongkou 135 60
6 sh hongkou 125 50
pudong 5 sh pudong 115 40
4 sh pudong 105 30
3、思考下给apply传入的参数其所代表的函数的返回值
1)函数返回df
上面的例子apply传入的sort函数内部返回df,而最终的数据结果是原df分组后每个子df的拼接,且最终数据会增加子df的索引列,导致最终的数据是二维索引。
# -*- coding:UTF-8 -*-
import pandas as pd
def sort(x):
return pd.DataFrame({'name':['laodong'],'site':['python66.com']})
df = pd.read_excel('test.xlsx')
df_res = df.groupby(['city']).apply(sort)
print(df_res)
name site
city
bj 0 laodong python66.com
sh 0 laodong python66.com
再来1个返回df的案例加深下理解,下面的例子sort函数内部完全是自己定义df
# -*- coding:UTF-8 -*-
import pandas as pd
start = 1
def sort(x):
global start
if start == 1:
start +=1
return pd.DataFrame({'name':['dong','zhi'],'age':[1,2]})
else:
return pd.DataFrame({'name2':['dong2','zhi2'],'age':[11,22]})
df = pd.read_excel('test.xlsx')
df_res = df.groupby(['city']).apply(sort)
print(df_res,type(df_res))
name age name2
city
bj 0 dong 1 NaN
1 zhi 2 NaN
sh 0 NaN 11 dong2
1 NaN 22 zhi2 <class 'pandas.core.frame.DataFrame'>
2)返回Series
apply接收的函数内部返回Series,最终的数据结果可以是Series也可以是df,如果每个子Series的索引完全相同则返回df,否则就是Series。具体看下面2个例子,注意体会Series的拼接的依据。
# -*- coding:UTF-8 -*-
import pandas as pd
start = 1
def sort(x):
global start
if start == 1:
start +=1
return pd.Series(['a1','b1'],index=['lao','dong'])
else:
return pd.Series(['a2','b2'],index=['lao','wang'])
df = pd.read_excel('test.xlsx')
_res = df.groupby(['city']).apply(sort) # 结果是二维索引的series
print(_res ,type(_res ))
city
bj lao a1
dong b1
sh lao a2
wang b2
dtype: object <class 'pandas.core.series.Series'>
# -*- coding:UTF-8 -*-
import pandas as pd
start = 1
def sort(x):
global start
if start == 1:
start +=1
return pd.Series(['a1','b1'],index=['lao','dong'])
else:
return pd.Series(['a2','b2'],index=['lao','dong'])
df = pd.read_excel('test.xlsx')
df_res = df.groupby(['city']).apply(sort)
print(df_res,type(df_res))
lao dong
city
bj a1 b1
sh a2 b2 <class 'pandas.core.frame.DataFrame'>
3)返回标量
# -*- coding:UTF-8 -*-
import pandas as pd
def sort(x):
return 111
df = pd.read_excel('test.xlsx')
S = df.groupby(['city']).apply(sort)
print(S)
city bj 111 sh 111 dtype: int64
很赞哦!
python编程网提示:转载请注明来源www.python66.com。
有宝贵意见可添加站长微信(底部),获取技术资料请到公众号(底部)。同行交流请加群
相关文章
文章评论
-
pandas的groupby使用apply分组排序文章写得不错,值得赞赏


