11.7 使用Pandas 模块中describe()、groupby()进行简单分析-育师

文章目录

前言
一、数据速览：describe()函数的神奇魔力
二、数据切片：groupby()的分组艺术
三、实战案例：电商销售数据分析
四、避免常见陷阱
五、让分析结果更直观
总结

前言

只需describe()和groupby()，让你从数据小白秒变分析达人！数据分析听起来高深莫测？别担心，今天我要介绍Pandas中两个最简单却最强大的函数——describe()和groupby()，它们能让你在几行代码内从海量数据中提取有价值的信息。

无论你是数据分析新手，还是想要快速了解数据集的业务人员，这两个函数都能成为你的得力助手。

一、数据速览：describe()函数的神奇魔力

在数据分析的第一步，我们需要快速了解数据的基本情况。describe()函数就像一位高效的数据诊断医生，能在瞬间给你一份完整的数据健康报告。

pythonimportpandasaspd# 加载数据df=pd.read_csv('sales_data.csv')# 一键生成数据报告print(df.describe())

运行这短短两行代码，你会得到一份包含以下关键指标的报告：
计数(count)：每列非空值的数量，帮你快速发现数据缺失情况
均值(mean)：数据的平均水平
标准差(std)：数据的离散程度，值越大表示数据越分散
最小值(min)和最大值(max)：数据的范围
四分位数(25%, 50%, 75%)：特别有用！中位数(50%)比平均数更能反映数据的真实中心
举个实际例子，假设你有一份销售数据，describe()能告诉你：
平均每单销售额是多少（均值）
销售额的波动大不大（标准差）
一半的订单销售额低于多少（中位数）
最高和最低销售额是多少
进阶技巧：按数据类型定制化描述

python# 只描述数值型数据print(df.describe(include=[np.number]))# 只描述对象型（字符串）数据print(df.describe(include=[object]))# 描述所有类型数据print(df.describe(include='all'))

二、数据切片：groupby()的分组艺术

如果说describe()是数据的全面体检，那么groupby()就是专科医生的精准诊断。它能将数据按特定维度分组，让我们看到不同类别下的数据表现。

python# 按产品类别分组，查看平均销售额grouped=df.groupby('产品类别')['销售额'].mean()print(grouped)

想象一下，你是一家电商的数据分析师，使用groupby()可以轻松回答这些问题：
不同地区的销售表现如何？

python region_sales=df.groupby('地区')['销售额'].sum().sort_values(ascending=False)

各产品类别的平均客单价是多少？

python category_avg=df.groupby('产品类别')['订单金额'].mean()

每月销售趋势如何变化？

python# 首先确保日期列为datetime类型df['订单日期']=pd.to_datetime(df['订单日期'])df['年月']=df['订单日期'].dt.to_period('M')monthly_sales=df.groupby('年月')['销售额'].sum()

组合技：groupby() + describe() 的威力
当groupby()遇上describe()，它们的组合能产生更深入的洞察：

python# 按产品类别分组后的详细统计category_stats=df.groupby('产品类别')['销售额'].describe()print(category_stats)

这个组合拳能一次性给出每个产品类别的：
订单数量
平均销售额
销售额标准差（稳定性分析）
最小/最大销售额
四分位数分布

三、实战案例：电商销售数据分析

让我们通过一个完整的例子，看看这两个函数如何在实际工作中协同作战。

python# 读取电商销售数据df=pd.read_csv('ecommerce_sales.csv')print("=== 数据总体情况 ===")print(df.describe())print("\n=== 按客户等级分组分析 ===")customer_tier_stats=df.groupby('客户等级')['订单金额'].describe()print(customer_tier_stats)print("\n=== 各品类销售表现 ===")category_analysis=df.groupby('产品品类').agg({'订单金额':['sum','mean','count'],'利润':'mean'})print(category_analysis)# 找出最畅销的10个产品top_products=df.groupby('产品名称')['订单金额'].sum().nlargest(10)print("\n=== 最畅销的10个产品 ===")print(top_products)

通过这段代码，你可以在几分钟内完成：
整体销售情况评估
不同客户群体的价值分析
各产品品类的盈利能力对比
爆款产品识别

四、避免常见陷阱

虽然describe()和groupby()非常强大，但使用时需要注意：
缺失值处理：describe()默认会忽略NaN值，但groupby()不会自动处理

python# 在groupby前处理缺失值df_filled=df.fillna({'产品类别':'未知'})

大数据集优化：对于超大数据集，考虑先抽样再分析

python# 随机抽样10%的数据df_sample=df.sample(frac=0.1,random_state=42)

数据类型确认：确保分组列的数据类型正确

python# 检查列的数据类型print(df.dtypes)# 转换数据类型df['日期列']=pd.to_datetime(df['日期列'])

五、让分析结果更直观

数据分析的最终目的是为了传达见解，可视化能让你的发现更加生动：

pythonimportmatplotlib.pyplotasplt# 按产品类别的销售额分布category_sales=df.groupby('产品类别')['销售额'].sum()category_sales.plot(kind='bar',title='各产品类别销售额对比')plt.show()# 每月销售趋势monthly_trend=df.groupby('年月')['销售额'].sum()monthly_trend.plot(kind='line',title='月度销售趋势')plt.show()