探索分析_探索分析输出的有哪些统计量和图
你是否曾经面对一个全新的数据集,苦苦思索如何能更快地理解它?你并不孤单。作为数据专业人士,我们都遇到过这样的情形——盯着数据集发呆,明知道里面藏着有用的信息。这时,Pandas一行代码的妙用就体现出来了。
你是否曾经面对一个全新的数据集,苦苦思索如何能更快地理解它?你并不孤单。

作为数据专业人士,我们都遇到过这样的情形——盯着数据集发呆,明知道里面藏着有用的信息这时,Pandas一行代码的妙用就体现出来了在本文中,我们将介绍10个用于探索性数据分析的实用Pandas一行代码技巧,并以Seaborn的flights数据集为例进行演示。
Google Colab笔记本链接快速了解数据集概况这个简单命令可以让你全面了解数据集:包括行列数、列名、数据类型以及非空数据量它可以帮助你立刻发现潜在的缺失值,并了解数据结构flights.info。
() 输出:RangeIndex:144entries,0to143Datacolumns(total3columns):# Column Non-Null Count Dtype
----------------------------0year144non-nullint641month144non-nullcategory2passengers144non-nullint64
dtypes:category(1),int64(2)memory usage:2.9KB检查缺失值缺失数据会显著影响分析结果下面的一行代码可以统计每一列的缺失值数量,帮助你决定如何处理它们flights。
.isna().sum() 输出:year0month0passengers0dtype: int64很棒!这个数据集没有缺失值生成统计摘要该命令为所有列生成详细的统计摘要,包括计数、均值、标准差、最小值、最大值和四分位数(适用于数值型数据),以及类别型数据的有用信息。
flights.describe() 输出:yearpassengerscount144.000000144.000000mean1954.500000280.298611std3.464102119.966317
min1949.000000104.00000025%1951.750000180.00000050%1954.500000265.50000075%1957.250000360.500000max1960.000000
622.000000查看类别列的唯一值理解类别变量的基数很重要下面的一行代码会返回每个类别型列的唯一值数量(以字典形式返回){col: flights[col].nunique() for col in flights.。
select_dtypes(include=[category, object]).columns} 输出:{month: 12} 可以看到,月份有12个唯一值,正如预期查找变量间的相关性这行代码计算所有数值型变量的相关性矩阵,帮助你辨别变量间的关系。
flights.corr() 分组聚合统计该一行代码按类别变量分组,并一次性计算多个统计量flights.groupby(month)[passengers].agg([mean, min, max,
std]) 输出:meanminmaxstdmonthJan241.750000112417101.032960Feb235.00000011839189.619397Mar270.166667132419
100.559194Apr267.083333129461107.374839May271.833333121472114.739890Jun311.666667135535134.219856Jul351.333333
148622156.827255Aug351.083333148606155.783333Sep302.416667136508123.954140Oct266.583333119461110.744964
Nov232.83333310439095.185783Dec261.833333118432103.093808可以看出乘客数量存在季节性波动,每月平均值也不同用IQR方法识别异常值这行代码使用四分位距(IQR)方法识别异常值。
低于Q1 - 1.5IQR或高于Q3 + 1.5IQR的值被认为是异常值Q1, Q3 = flights[passengers].quantile(0.25), flights[passengers].quantile(0.75) flights[(flights[
passengers] Q3 + 1.5 * (Q3 - Q1))] 结果显示,该数据集中没有异常值绘制时间序列趋势图
对时间序列数据来说,趋势可视化至关重要该一行代码可绘制乘客数量随年份变化的趋势图flights.plot(x=year, y=passengers, figsize=(12, 6), title=Passenger Trend Over Time
) 输出为一条显示乘客数量随时间变化趋势的折线图计算环比变化该命令计算前一周期的百分比变化,帮助你理解增长率flights.assign(pct_change=flights[passengers].pct_change() *
100) 输出:yearmonthpassengerspct_change01949Jan112NaN11949Feb1185.35714321949Mar13211.86440731949Apr129
-2.27272741949May121-6.201550...............1391960Aug606-2.5723471401960Sep508-16.1716171411960Oct461
-9.2519691421960Nov390-15.4013021431960Dec43210.769231[144rowsx4columns]这展示了每个月乘客数量的环比百分比变化创建季节性分解可视化。
这行代码将数据转换为以年份为行、月份为列的矩阵,并绘制可视化,展示各年份每月的季节性变化flights.pivot(index=year, columns=month, values=passengers。
).plot(figsize=(14, 8), title=Monthly Passenger Counts by Year) 输出为一张按年份区分的每月乘客数量折线图,揭示了季节性规律总结这10个Pandas一行代码技巧展示了如何利用Pandas进行探索性数据分析。
结合这些方法,你可以快速了解任何数据集的结构、内容和模式祝你数据分析愉快!
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186