探索性数据分析eda:探索性数据分析EDA相关作业
EDA是什么探索性数据分析(EDA)是一种使用可视化技术分析数据的方法一图胜千言,正如Scott Berinato在他的著作《Good Charts》中所说,"A good visualization can communic
EDA是什么探索性数据分析(EDA)是一种使用可视化技术分析数据的方法一图胜千言,正如Scott Berinato在他的著作《Good Charts》中所说,"A good visualization can communicate the nature and potential impact of information and ideas more powerfully than any other form of communication。
."EDA的作用在机器学习中,对数据进行恰当的预处理以及抽取合适的特征对后续的模型训练起到至关重要的作用EDA可以帮助我们发现数据中的某些模式以及趋势,以及借助统计描述信息和图形表示验证某些假设,从而指导我们如何进行数据预处理和特征工程。
EDA实战在EDA中,我们需要重点关注的信息包括:缺失值、异常值、数据分布、变量之间的相关性、变量和标签之间的相关性我们可以借助Matplotlib、Seaborn等诸多工具来手动地进行EDA,而一种更简便的方法是可以使用自动化的EDA工具,例如dtale、pandas profiling、sweetviz、autoviz。
这里我们以autoviz为例,结合鸢尾花数据集,来看看如何使用简单的几行代码实现EDAfrom autoviz.AutoViz_Class import AutoViz_Classautoviz = AutoViz_Class()
dft =autoviz.AutoViz( filename="/content/Iris.csv", #读入数据集,注意和dfte的区别 sep=",", #设置数据集分隔符,默认为逗号
depVar="Species", #设置标签列 dfte=None, #传入一个pandas.DataFrame,如果filename已设置,此处为None header=0,
verbose=0, #可选0, 1或者2,设置图形的保存形式 lowess=False, #是否启用lowess回归,适合小数据量数据集,100,000行以上数据不建议用 chart_format=
"svg", #设置图形保存格式 max_rows_analyzed=150000, #设置数据集待分析的行数 max_cols_analyzed=30, #设置数据集待分析的列数)AutoViz会计算
各个变量的重要性,选择一些被认为重要性比较高的变量进行绘图,并内置了启发式算法,选择被认为最优的表现形式来进行绘图。在这个案例中,AutoViz生成了如下可视化结果。连续型变量的散点图和标签的关系:
成对散点图,用于理解连续变量之间的相关性程度:
连续型变量的数据分布:
标签的数据分布:
不同标签下连续型变量的箱型图:
热力图,用于展示一组变量以及标签的相关系数矩阵:
【参考文献】1. The Kaggle Book: Data analysis and machine learning for competitive data science2. https://www.geeksforgeeks.org/what-is-exploratory-data-analysis/
3. https://towardsdatascience.com/autoviz-a-new-tool-for-automated-visualization-ec9c1744a6ad4. https://mp.weixin.qq.com/s/wVgfg90gXLLYy9EaxlkFaQ
5. https://mp.weixin.qq.com/s/-XPGXEl0tRmjKq48z7P-7g6. https://github.com/AutoViML/AutoViz【代码地址】https://github.com/4paradigm/AutoX/blob/master/demo/EDA/EDA_Autoviz.ipynb, 或
点击左下角 阅读原文 可直接跳转。
往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419,加入微信群请扫码
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186