您的位置：网站首页> Pandas教程> 当前文章

pandas的groupby使用apply分组排序

老董-我爱我家房产SEO2022-04-04161围观,144赞

　　前面的文章依次介绍过pandas分组操作中高频出现的函数，如agg、transform、filter，如果想彻底了解pandas分组聚合各类操作可以查看pandas的groupby使用大全。

　　在实际处理数据中，pandas分组后的对象还可以使用apply函数，apply可以帮助我们实现前面三类函数不能直接做到的事情。比如，分组排序。本文我们详细介绍下DataFrameGroupBy对象的apply应用。

　　（ps：不太建议大家用groupby配合apply，除非你熟悉这里面的各种坑，否则可能出现一些未知的错误，最好是按部就班的通过循环每个子组来操作，最后再拼接子组）

　　1、先看下面1个需求

　　有如下df对象，请把把每个城市作为一组，按照register列倒序。

# -*- coding:UTF-8 -*-
import pandas as pd   

df = pd.read_excel('test.xlsx')
print(df)

  city      quyu  register  login
0   bj  chaoyang       100     60
1   bj  chaoyang       110     70
2   bj   haidian       120     80
3   bj   haidian       130     90
4   sh    pudong       105     30
5   sh    pudong       115     40
6   sh   hongkou       125     50
7   sh   hongkou       135     60

　　可能第一反应是先把城市提取出来，然后循环每个城市作为单独的df排序，最后各个城市再拼接成1个df。实际上用groupby和apply可以直接实现。DataFrameGroupBy对象使用apply时apply接收的函数的参数是分组后的每个子df，看案例：

# -*- coding:UTF-8 -*-
import pandas as pd   

def sort(x):
	return x.sort_values('register',ascending=False)

df = pd.read_excel('test.xlsx')
df_res = df.groupby(['city']).apply(sort)
print(df_res)

       city      quyu  register  login
city                                  
bj   3   bj   haidian       130     90
     2   bj   haidian       120     80
     1   bj  chaoyang       110     70
     0   bj  chaoyang       100     60
sh   7   sh   hongkou       135     60
     6   sh   hongkou       125     50
     5   sh    pudong       115     40
     4   sh    pudong       105     30

　　2、升级一下需求，按每个城市每个区域作为一组，按register列倒序，并且组内添加上名次

# -*- coding:UTF-8 -*-
import pandas as pd   

def sort(x):
	x2 = x.sort_values('register',ascending=False)
        x2['名次'] = x2['register'].rank(method="dense",ascending=False)
        return x2

df = pd.read_excel('test.xlsx')
df_res = df.groupby(['city','quyu']).apply(sort)
print(df_res)

                city      quyu  register  login
city quyu                                      
bj   chaoyang 1   bj  chaoyang       110     70
              0   bj  chaoyang       100     60
     haidian  3   bj   haidian       130     90
              2   bj   haidian       120     80
sh   hongkou  7   sh   hongkou       135     60
              6   sh   hongkou       125     50
     pudong   5   sh    pudong       115     40
              4   sh    pudong       105     30

　　3、思考下给apply传入的参数其所代表的函数的返回值

　　1）函数返回df

　　上面的例子apply传入的sort函数内部返回df，而最终的数据结果是原df分组后每个子df的拼接，且最终数据会增加子df的索引列，导致最终的数据是二维索引。

# -*- coding:UTF-8 -*-
import pandas as pd   

def sort(x):
	return pd.DataFrame({'name':['laodong'],'site':['python66.com']})

df = pd.read_excel('test.xlsx')
df_res = df.groupby(['city']).apply(sort)
print(df_res)

           name          site
city                         
bj   0  laodong  python66.com
sh   0  laodong  python66.com

　　再来1个返回df的案例加深下理解，下面的例子sort函数内部完全是自己定义df

# -*- coding:UTF-8 -*-
import pandas as pd   

start = 1
def sort(x):
	global start
	if start == 1:
		start +=1
		return pd.DataFrame({'name':['dong','zhi'],'age':[1,2]})
	else:
		return pd.DataFrame({'name2':['dong2','zhi2'],'age':[11,22]})

df = pd.read_excel('test.xlsx')
df_res = df.groupby(['city']).apply(sort)
print(df_res,type(df_res))

        name  age  name2
city                    
bj   0  dong    1    NaN
     1   zhi    2    NaN
sh   0   NaN   11  dong2
     1   NaN   22   zhi2 <class 'pandas.core.frame.DataFrame'>

　　2）返回Series

　　apply接收的函数内部返回Series，最终的数据结果可以是Series也可以是df，如果每个子Series的索引完全相同则返回df，否则就是Series。具体看下面2个例子，注意体会Series的拼接的依据。

# -*- coding:UTF-8 -*-
import pandas as pd   

start = 1
def sort(x):
	global start
	if start == 1:
		start +=1
		return pd.Series(['a1','b1'],index=['lao','dong'])
	else:
		return pd.Series(['a2','b2'],index=['lao','wang'])

df = pd.read_excel('test.xlsx')
_res = df.groupby(['city']).apply(sort) # 结果是二维索引的series
print(_res ,type(_res ))

city      
bj    lao     a1
      dong    b1
sh    lao     a2
      wang    b2
dtype: object <class 'pandas.core.series.Series'>

# -*- coding:UTF-8 -*-
import pandas as pd   

start = 1
def sort(x):
	global start
	if start == 1:
		start +=1
		return pd.Series(['a1','b1'],index=['lao','dong'])
	else:
		return pd.Series(['a2','b2'],index=['lao','dong'])

df = pd.read_excel('test.xlsx')
df_res = df.groupby(['city']).apply(sort)
print(df_res,type(df_res))

     lao dong
city         
bj    a1   b1
sh    a2   b2 <class 'pandas.core.frame.DataFrame'>

　　3）返回标量

# -*- coding:UTF-8 -*-
import pandas as pd   

def sort(x):
	return 111

df = pd.read_excel('test.xlsx')
S = df.groupby(['city']).apply(sort)
print(S)