www.teandq.com
晓安科普

科学知识是什么的基础(科学知识是什么意思)学到了

2023-10-16Aix XinLe

在这篇文章中,我将介绍一些入门数据科学所必须的统计学概念。

科学知识是什么的基础(科学知识是什么意思)学到了

 

原文地址:Statistics for Beginners – Top Stats Concepts to Know Before Getting into Data Science原文作者:Ibrahim Abayomi Ogunbiyi

译者:Yaxing Li (Suntar)校对者:Miya什么是统计学?数据科学入门必备统计学概念什么是对象?什么是总体?什么是样本?什么是参数?什么是统计量什么是定量数据?什么是定性数据?平均数 vs 中位数 vs 众数 --- 它们有什么区别?

什么是平均数什么是中位数什么是众数?什么是离群值?什么是标准差?什么是柱状图?什么是直方图?什么是箱型图?什么是定量变量之间的相关性?什么是散点图?结论:学无止境你可能听说过,统计学是数据科学的入门门槛,是打开数据科学的钥匙。

可能你还听说过,想学数据科学,必须先学统计这时候你也许会迟疑,“我不是理工科背景,没有相关数学基础,我是不是要把统计学的相关知识学习完,才算入门了数据科学啊?“ 有些人会告诉你:“是的!你必须先学习统计学。

”而我的回答是:在开始数据科学之前,你不需要学习所有的统计学(尽管你需要掌握一些基础知识)你可以边学边做,而不是浪费时间在数据科学之前先修统计学(也就是说,随着你对数据科学知识的进一步了解,你同时可以学到更多的统计学概念)。

话虽如此,了解一些统计学基础知识,还是很有必要的确实可以这样说,统计学是打开数据科学的钥匙,因为它会让你对数据更为敏感,知道如何处理它们在这篇文章中,我将介绍一些入门数据科学所必须的统计学概念我将尽量用简单的语言来介绍,即使你不是理工科出身,我相信你听完以后也会十分兴奋,迫不及待想进入数据科学领域。

让我们开始吧什么是统计学?根据经济学家和抽样方法先驱阿瑟-里昂-鲍利(Arthur Lyon Bowley)的说法,统计学是:“对调查事件的量化描述,并将之与其他事件进行联系”这句话的意思是,统计学帮助我们理解数据,并向他人传达数据得出的结果。

统计方法(即在处理统计数据时所采用的技术方法)分为两种类型:描述统计推断统计描述统计是统计学的一大分支,它协助我们通过数值或图形可视化来总结数据描述统计帮助我们识别和理解数据中的一些关键属性它包含如中心极限、离散、箱形图、直方图等概念,我们将在下文讨论这些概念。

推断统计是统计学的另一大分支,它帮助我们根据收集到的数据做出决策或预测推断统计是在描述性统计的基础上,更进一步的推理判断它包括诸如假设、概率等概念数据科学入门必备统计学概念既然你现在已经熟悉了统计学的定义,让我们来看看在统计学中需要知道的一些相关概念,这些概念将带你入门统计学。

其中最基本的概念包括:什么是对象?对象是我们想要观测的具体事物它可以是一个人,一个动物,或其他东西它也被称为观测点什么是总体?总体指的是我们感兴趣的(也就是我们想观察的)整个对象集,比如一个国家的全体女性人数。

什么是样本?现实情况下,观察一个总体几乎不可能(因为它费时费力)比如:你希望观测世界上所有女性数量,但进行这种观测成本很大所以,在统计学中,我们有一种叫做样本的东西,它是总体的一部分或子集我们可以利用样本对全部人口做出判断(推断统计)。

什么是参数?参数是描述总体特征的度量比如,你正在观测一个国家的人口,你发现90%的居民为男性,10%为女性数值90%和10%是整个人口的性别度量(描述统计)它就是总体特征的一个参数什么是统计量统计量(不要与统计学混淆)是描述样本特征的度量。

如前所述,我们没法观测总体,只能观测样本,统计量就是对样本特征的数值度量希望现在你对什么是总体、样本、统计量和参数有了基本了解让我们来看看另一个我们都很熟悉的概念:"数据"数据代表了事件信息,也就是说,它向我们传达了一个事实。

它可以被分为两类:定量数据定性数据什么是定量数据?它也被称为数值数据它是一种可以计数或计量数值的数据定量数据可以进一步分为两种类型:定量离散数据:它可以计数但不能精确计量, 比如计数鞋店中的鞋子个数定量连续数据

:这是一种基于精确计量的数值数据例如,测量一个玻璃缸的重量什么是定性数据?它是代表类别或数据组的各种数据它也被称为类别数据它通常是特征、名字或其他东西的名称分类常见的例子包括人名,狗的品种等等然而,有一些数据看起来像数值数据,但也被归为类别数据。

例如,假设你想根据年龄对某一群人进行分组,发现最低和最高年龄分别是10岁和60岁然后你把年龄分成5个类别(10-20岁,21-30岁,31-40岁,41-50岁,51-60岁),并给每个类别分配数值,其中1代表10-20岁,2代表21-30岁,以此类推。

在这种情况下,数值将被作为定性数据而不是定量数据来处理随着不断深入数据科学,你将学会如何处理类别数据了解了数据分类,现在我们来看看定量和定性数据在统计学中是如何计量的统计学依据数据的计量尺度将数据划分为4类,它们分别是:。

名义数据有序数据间隔数据比率数据定性数据可以用以下方式计量:名义数据:名义数据是无序的分类数据,也就是说,它们不能被排序每一组数据都代表一个分类,比如颜色蓝色没有任何理由排在黄色之前在处理名义数据时,每组数据都必须作为一个独立的分类来处理。

有序数据有序数据是有顺序的分类数据当数据被排序后,就有了先后顺序像优秀、良好、满意和不满意这样的调查回答就是一个例子将优秀排在良好之上符合现实需要定量数据可以用以下方式计量:间隔数据间隔数据是指有排序的数值数据,并且可以进行测量(比如,数据之间可以相减)。

温度计的读数就是一个间隔数据例子例如,你可以测量摄氏4度和10度之间的差值,10度比4度高6度间隔刻度数据有两个特点:它没有一个起点(也就是说,它不从零开始,可以有一个低于零的温度值)无法计算出它们的比例。

比如,80摄氏度比20摄氏度高4倍,这不符合逻辑,因为它们没有一个起点比率数据比率数据具有间隔数据可以被排序和计量的特点,但比率数据有一个共同的起点,所以能计算它们之间的比率比如考试成绩分别为20、68、90或80分。

我们可以给它排序,计算差值,并找到数值之间的比率,比如80分比20分高4倍现在我们已经介绍了数据的基本概念,接下来我们看看第一大类统计方法(描述统计)如何处理数据如前所述,描述统计需要用数字或图形来总结数据。

让我们来看看在处理数据时,你会经常用到的一些最典型的数字和图形平均数 vs 中位数 vs 众数 --- 它们有什么区别?

上图解释了平均数、中位数和众数的区别众数是最高点,中位数是中间点,而平均数是均值什么是平均数当我们有一组像4,5,6,7,10这样的数值数据时,这组数据中的每个值都被称为一个数据点我们可能想找到这组数据的平均值。

平均值本质上就是一组数据的平均数,计算方法是所有数据点的总和除以数据点的总个数上面的数据集的总和是32,数据点的总个数是5,所以平均数,也就是平均值,是6.4平均数只存在于定量数据上,定性数据没有平均数。

什么是中位数给定一组数值,我们可能想找到位于中间位置的数值,中位数就是最中间的数据点,中位数也只存在于定量数据什么是众数?众数是最高频出现的数据点(也就是出现次数最多的数值)定量数据和定性数据都有众数什么是离群值?

离群值是指与其他数据点显著不同的异常数据点离群值会导致我们得出错误的结论下面就是一个典型的例子假设你有一台机器能计算每天进入超市的顾客数它某一周值为20、23、26、27、302我们可以判断302就是一个离群值,因为它与其他数值有很大的差别。

离群值可能是由突然的变化、机器故障或其他情况造成的它们的出现会导致错误结论例如,如果想知道平均超市顾客访问量,数值302就可能具有误导性,让我们认为平均访问量是75什么是标准差?标准差是一种描述性数值,表明数据点与平均值的偏离程度。

它被用来确定数据的分布情况标准差越接近于零,数据点就越趋近于平均值。标准差是一种非常重要的描述性统计。它能告诉我们数据集的离散程度。下图是一张数据正态分布图,X轴以标准差为刻度。

从上图可以看出,34.1% + 34.1% = 68.2% 的所有观测值都在一个标准差之内,或1σ(读作一个西格玛)加上13.6%+13.6%=27.2%的观测值在两个标准差之内,或2σ,以此类推不知道你是否听说过六西格玛这个工程学概念。

它表示在质量保证过程中要考虑到六个标准差的可能性这意味着除了最最极端的异常值之外,你要考虑到所有的情况准确地说,是所有可能性的99.99966%现在我们已经掌握了一些以数字进行描述统计的方法,接下来让我们来看看一些常见的图形描述方法。

什么是柱状图?柱状图用于类别数据的可视化。用它可以来展示每组数据的频数(即一个类别中数据点出现的次数)。如图所示:

什么是直方图?直方图与柱状图类似,用以展示数据组的频数但与柱状图不同的是,它展示了定量连续数据组的频数,这些连续数据组也被称为区间或组距直方图是非常有效的可视化图形,可以帮助展示定量数据的分布你可以在这里读到更多关于直方图的信息。

什么是箱型图?另一个非常棒的数据描述图表就是箱型图。箱型图可以直观地查看是否存在离散点,它还展示了诸如最小区间值、第一四分位数,中位数,第三四分位数和最大区间值等数字。箱型图如图所示:

图片由Ibrahim Ogunbiyi提供让我们来来看看上图都代表了什么意思最小区间值:最小区间值并不是最小值它等于 ( Q1 -1.5*IQR) Q1是第一四分位数IQR是第三四分位数和第一四分位数的差值。

最小区间界定了正常数据点的范围,它可以帮助我们发现那些小于正常范围的离散点举个例子,假设我们的数据点是像这样分布[345, 402, 295, 386, 10]我们可以判断数据点10是一个离群点,因为它远低于其他观察值。

第一四分位数告诉我们25%的数据点低于这个数值,75%的数据点高于这个数值它也被称为第25百分位数第二四分位数告诉我们50%的数据点低于该数值,其余50%高于该数值它也被称为第50百分位数第三四分位数告诉我们75%的数据点低于该数值,其余25%高于该数值。

它也被称为第75百分位数最大区间值,和最小区间值一样,也不是数据集中的最高值它的计算公式是(Q3+1.5*IQR)Q3 是第三四分位数IQR是第三四分位数和第一四分位数的差值最大区间值可以帮助我们发现那些远高于其他观察值的离散点。

比如,假设我们的数据点是像这样分布[645, 40, 25, 38, 42]我们可以确定645是一个离散点,因为它是远远高于其他观察值总结完不同类型的数据图形展示后,让我们进入最后一个话题:什么是定量变量之间的相关性?。

变量是代表任何一组数值的统称,时常表示为表格中的一列如果一个变量中的数值变化引起另一个变量中的数值变化,我们就称这两个变量具有相关性为了度量两个定量变量之间的相关性,我们常常用卡尔-皮尔逊公式来计算,其结果在-1和+1之间。

如果相关值接近1,表明这两个变量正相关(也就是说,当一个变量数值增加时,另一个变量数值也会增加)如果数值接近-1,表明这两个变量负相关(即随着一个变量数值增加,另一个变量数值减少)最后,如果相关值为0,则两个变量之间没有相关性。

你可以在这里 (https://www.statisticshowto.com/probability-and-statistics/correlation-coefficient-formula/) 阅读更多关于相关性和卡尔-皮尔逊公式的知识。

什么是散点图?我们可以通过散点图来表示定量变量之间的相关性,如下图所示。

图片来源:散点(XY)图(mathsisfun.com)想要了解更多散点图内容,可以查看这里(https://byjus.com/maths/scatter-plot/#:~:text=Scatter%20plots%20are%20the%20graphs,plotted%20on%20the%20Y%2Daxis

)结论:学无止境在本教程中,我们已经探讨了一些基本的统计学概念,这些概念将帮助你更有效地处理数据但学无止境---还有一些基本的统计学概念我们没有涉及,你必须自己去学习这只是一个开始,你可以通过查阅在线资源或教科书进行更深入地学习。

非常感谢你的阅读,请将本文分享给那些也想涉足数据科学的初学者。

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186

科学科学知识是什么的基础(科学知识是什么意思)学到了

2023-10-16Aix XinLe143

科学知识是什么的基础(科学知识是什么意思)学到了在这篇文章中,我将介绍一些入门数据科学所必须的统计学概念。…

知识知识库作用(知识库的作用和好处)学会了吗

2023-10-16Aix XinLe78

知识库作用(知识库的作用和好处)学会了吗内部知识库是企业内部的一个信息存储和共享平台,可以为企业带来很多好处,包括:提高员工工作效率和减少重复劳动:内部知识库可以让员工方便地查找和使用…

百科墙裂推荐角岛鲸(角岛鲸图片)

2023-10-16Aix XinLe118

墙裂推荐角岛鲸(角岛鲸图片)泰国新泰日报社讯 泰媒报道,1月6日,泰国甲米府海洋野生动物保护区负责人接到求助电话,称Kho Klang镇某海滩有鲸鱼搁浅,遂携工作人员前往海…

科学科学知识是什么的基础(科学知识是什么意思)这都可以?

2023-10-16Aix XinLe41

科学知识是什么的基础(科学知识是什么意思)这都可以?科学是一个涵盖了各种知识领域的系统,这些领域包括自然、社会和思维等,它们都是按照一定的规律性进行分科的。科学可以分为自然科学、社会科学、思维逻辑…

探索中央10套探索发现考古(中央10台探索发现)太疯狂了

2023-10-16Aix XinLe186

中央10套探索发现考古(中央10台探索发现)太疯狂了
突如其来的新冠疫情,抗疫与发掘该如何抉择?重约8公斤的金器为何成堆出现?三块金印的发现能否揭开明代藩王的秘密?......6月5日 CCTV10《探索发现》播出江口明末战场遗址发…