www.teandq.com
晓安科普

科学与技术的关系图(科学与技术的关系不正确的是)这样也行?

2023-10-30Aix XinLe

以南京市小学科学六年级技术与工程素养评测试卷的质量分析为例,按照测量指标的选择、分析的步骤、结果的解释这一思路,探讨Rasch模型在试卷质量分析中的应用。

科学与技术的关系图(科学与技术的关系不正确的是)这样也行?

 

原载《教育测量与评价》2019年第1期

 作者介绍 柏 毅/东南大学儿童发展与学习科学教育部重点实验室、儿童发展与教育研究所教授,东南大学脑与学习科学系主任,中国教育学会科学教育分会常务理事、副秘书长,主要研究方向为科学教育与评测、STEM教育、信息技术在科学教育中的应用。

朱文琴/东南大学儿童发展与学习科学教育部重点实验室、儿童发展与教育研究所科学与技术教育专业硕士生,主要研究方向为教育心理与行为评测陈慧珍/东南大学儿童发展与学习科学教育部重点实验室、儿童发展与教育研究所科学与技术教育专业硕士生,主要研究方向是教育心理与行为评测。

【摘要】与传统测量模型相比,Rasch模型因其客观和等距的特点在试卷质量分析中独具优势本文以南京市小学科学六年级技术与工程素养评测试卷的质量分析为例,从试卷整体质量检验、单维性检验、试卷难度与学生能力的匹配性检验、各题质量分析、题目拟合度和测量误差检验等方面介绍了Rasch模型在试卷质量分析中的应用,同时指出该评测试卷的信效度较高、题目区分度合理,绝大多数题目达到了测量预期。

在具体应用中,测量者应依据实际情况选择合适的Rasch分析软件及Rasch模型对应的分析功能;在Rasch模型检测出试卷中的问题项目后,测量者应依据实际情况解释和处理这些问题项目【关键词】Rasch模型;试卷质量分析;单维性

在教育与心理测量领域,试卷质量分析主要以两个理论作为指导:经典测量理论(classical test theory,CTT)与项目反应理论(item response theory,IRT)经典测量理论存在测验依赖性和样本依赖性的问题,即测量结果依赖于测验的特性和被试样本的特性。

项目反应理论(IRT)所具有的样本独立性、多重信度评估的优点,可以很大程度上弥补经典测量理论的不足[1]Rasch模型是一个单参数IRT模型,具有客观、等距的测量优势,在经济学、心理学等领域已得到广泛应用,但它在试卷质量分析中的应用尚不多见。

本文以南京市小学科学六年级技术与工程素养评测试卷的质量分析为例,按照测量指标的选择、分析的步骤、结果的解释这一思路,探讨Rasch模型在试卷质量分析中的应用,以期为一线教育工作者和教育研究者提供参考一、Rasch模型基本理论

 1 Rasch模型简介1960年,丹麦教育家、数学家Georg Rasch提出了一种数学模型——Rasch模型,用于测量个体能力与题目难度之间的关系它认为个体是否能答对题目,完全由个体能力大小与题目难度大小决定。

当个体能力大于题目难度时,个体能够答对题目;反之,则不能答对Rasch模型是一种基于项目反应理论的潜在特质模型,且是一个理想状态下的模型因此,为了保证能够进行客观分析,应用Rasch模型时所收集的实证数据必须满足以下两个要求:(1)。

对于任何个体,答对难度低的题目的概率大于难度高的题目;(2)对于任何题目,能力高的个体回答正确的概率大于能力低的个体在测量之前,Rasch模型需要将非线性的数据转化成“Logit”线性数据,以便后续的客观测量。

Rasch模型的数学式为:

其中,Pni是被试n正确回答题目i的概率,Bn是被试能力,Di是题目难度当被试能力和题目难度大小相等时(Bn=Di),则被试n答对题目i的概率是0.5;当被试能力远远大于题目难度时(Bn>>Di),被试答对题目的概率趋近于1;当被试能力远远小于题目难度时(。

Bn<

等距的意思是每增加一个单位分数,其代表的特征水平也具有同样大的增量“不满意”和“满意”之间的差距,不一定与“满意”和“非常满意”之间的差距相等第二,个体和题目使用同一维度尺首先,Rasch模型将原始分数转换成“Logit”数据,然后在同一单维度尺上对个体和题目标定。

测量时,个体能力与题目使用同一维度尺(Logit量尺),能够直观清楚地比较个体和个体、题目和题目,以及个体和题目之间的关系这是Rasch模型的重要特点之一,在质量分析应用中具有深刻意义[3]第三,Rasch模型参数具有不变性。

想实现客观等距测量需要满足两个条件:首先,题目难度的标定与样本的分布无关;其次,个体能力的测量与题目的难度分布无关Rasch模型的这种特性叫作“参数不变性”因为经典测量理论存在样本依赖和测试依赖的问题,个体能力的测量和题目的难度测量是相互干扰的。

而Rasch模型提供的题目难度和个体能力参数,不随样本的分布和题目难度分布的变化而变化,具有不变性二、研究方法 1 小学科学六年级技术与工程素养评测试卷随着STEM教育的兴起,技术与工程素养(technology and engineering literacy,TEL)在科学教育中越来越重要,成为现代学生应该具备的基本素养之一。

本次评测试卷参考TEL的评测标准将题目分为3个维度:理解技术的原理、设计并开发解决方案、沟通与交流本试卷共17题,分为选择题和非选择题其中,选择题12题,分为单选题与排序题,单选题9题,排序题3题;非选择题5题,分为简答题与组合题,简答题4题,组合题1题,组合题包含两个小题。

 2 研究对象本研究的评测对象是六年级学生首先,从南京市三所小学的六年级学生中各选取5名进行预实验预实验之后,我们根据发现的问题,结合学生实际情况以及任课教师的建议对评测方案进行完善之后,选取南京市三所小学的六年级学生进行正式评测,具体为一所教学质量中等偏上的国际小学A、一所教学质量中等偏上的公立学校B、一所教学质量中等偏下的公立学校C。

三所参与评测的学生人数分别为23人、21人、46人,总计90人有效试卷回收率为100%本次评测时间为60分钟 3 分析方法本研究采用Excel和Winsteps3.72.3软件,用Rasch模型进行分析。

为了达到Rasch模型的分析要求,首先需要对整套试卷的17个题目采取4级计分的方法:单选题答对计3分,答错计0分;其余题目类型,完全答对计3分,60%以上正确计2分,30%~60%正确计1分,答错计0分。

用Excel处理原始数据后,我们将数据导入Winsteps3.72.3软件中进行分析三、Rasch模型在试卷质量分析中的应用Rasch模型在试卷质量分析中的应用主要按以下步骤展开:首先对评测试卷的整体质量做分析,然后检验题目的单维性,接着通过怀特图(wright map)粗略地判断题目的质量,再使用误差统计和项目拟合(

item:fit order)、气泡图(bubble diagram)等做进一步分析 1 评测试卷的整体质量检测在Rasch模型中,为了了解试卷的整体质量,一般采用Winsteps3.72.3软件进行分析。

本研究所得结果如图1所示,其中measure代表难度平均值,speration代表区分度,reliability代表信度,Outfit MNSQ和Infit MNSQ为拟合指标。

图1 整体质量检测图由图1可知,被试能力难度平均分为0.63,说明该试卷对于被试来说难度适宜区分度指测验题目能够在多大程度上区分所要测量的心理品质,区分度值越高,表明测验题目能够越好地将不同能力水平的被试区分开来,它的理想值为2。

本评测试卷项目区分度(tap separation=3.10,>2)的值较高,表明能够区分不同能力水平的学生信度指测验结果的内部一致性,信度系数越高表明测验的结果越一致、稳定和可靠,其理想值为1,大于0.7表明测验信度较高,。

0.6~0.7 表明信度良好本评测试卷题目整体信度(tap reliability=0.91,>0.7),表明题目的整体信度较高;学生整体信度(kid reliability=0.63,<0.7)良好,这是由于整个测试是在3所不同水平的学校进行测验,学生个体差异较大,学生能力水平的分布范围较广。

Rasch模型使用Outfit MNSQ(OMNSQ)和 Infit MNSQ(IMNSQ)进行拟合度检验Outfit MNSQ指未加权均方拟合统计量,Infit MNSQ指加权均方拟合统计量,ZSTD。

是MNSQ的标准化形式OMNSQ对异常数据敏感,IMNSQ对题目难度与学生能力数据敏感因此,我们采用IMNSQ数据对评测试卷进行分析当IMNSQ的理想值为1时,表示实际数据与Rasch模型完全拟合;当IMNSQ

的值在0.5到1.5之间时,表示数据与模型预期拟合程度在可接受的范围在理想拟合状态下,ZSTD值为0;当ZSTD值在-2到2时,可以认为拟合较好由图1可知,被试的IMNSQ与ZSTD值分别为1.00和0.1;题目的。

IMNSQ与ZSTD值分别为0.99和-0.3,表明被试和题目的IMNSQ和ZSTD值均接近理想值,拟合程度良好因此,评测试卷的整体质量状况较好,可进行后续分析 2 评测试卷的单维性检验Rasch模型是一个单参数项目反应理论模型。

项目反应理论是建立在单维性假设的基础之上,即被试在该测试中取得结果的好坏只与被试的某一种能力有关(如知识、能力、性格特征等),其他影响因素可以忽略因此运用Rasch模型进行试卷质量分析时,必须使用单维性检验对试卷进行分析。

单维性检验指标的特征量是可能影响因素和项目分数之间的相关关系值,当其值在-0.4到+0.4之间时,表示对应项目符合单维性要求,Rasch模型能够对其进行准确的分析如果题目的分析结果符合单维性要求,则题目的难度、信效度和区分度更准确。

图2是经过Winsteps软件分析获得的标准残差对比图,我们从中能够清晰准确地知道编制的题目是不是具备单维性

图2 标准残差图图2中,横坐标代表题目的难度级别,纵坐标代表题目得分和可能影响因素之间的相关关系值,字母 A、B、C、D 和 a、b、c、d 等分别代表一道题目我们可以看出,本研究的大部分题目的相关关系值都集中在-0.4到+0.4之间,符合Rasch模型的单维性要求,表明这些题目只受某一单一因素的影响,能够进行后续的深入分析。

但 A、B、C、D、a这 5个题目的相关关系值超出了-0.4至+0.4这个范围,不符合单维性检验的要求,表明这5道题目不只受单一因素的影响,测量的心理结构不单一查阅试卷,我们发现这5道题目分别是第17.2、17.1、16、15题和第6题。

再次对题目进行分析后我们发现,这几道题目考查的学生能力水平并不是单一的,涉及了多维能力的检测,Rasch模型不能特别准确地对其进行测量分析例如第17.2题“利用这个原理,明明决定利用1个塑料瓶、2根橡皮管、1卷胶带、1个针筒、1个砝码、1个玻璃水缸、自来水,自己制作一个简易的潜水艇。

请使用上面的工具绘制您的简易潜水艇,并概括地写出潜水艇实现上浮和下沉的原因”该题目不仅考查学生设计开发的能力,也考查学生观察分析的能力和探究能力,能力维度较为复合 3 评测试卷难度与学生能力的匹配性检验——怀特图

Rasch模型把学生能力与题目难度放在同一个水平尺(即怀特图)上,从而可以直观清楚地比较学生能力与题目难度、学生与学生、题目与题目之间的关系及其差异在怀特图(图3)中,竖线表示Logit刻度尺,量尺左侧为学生能力分布情况,量尺右侧为题目难度分布情况,“X”代表一定数量的被试。

竖线旁边的字母M是Mean的缩写,指平均水平;S是One Standard Error的缩写,代表距离均值的一个标准差;T是Two Standard Error,代表距离均值的两个标准差因此,从图3我们可以看出,M与S相差的是一个标准差,S与T相差的也是一个标准差,M和T相差两个标准差。

怀特图最左端数字是用于对比被试能力水平和题目难度的Logit量尺值从下往上看量尺,Logit值逐渐增大,代表学生能力水平逐渐变大,题目难度逐渐变大在怀特图中,评测试卷题目的理想分布情况是:不同难度等级的题目均有与之对应的被试,并且在被试分布相对密集之处对应的题目数量相对较多。

图3显示了学生能力与题目难度之间的关系

图3 考生—题目关系的变量图(怀特图)从图3我们可以看出,大部分学生的能力水平处在0到2之间,呈现负偏态,说明该评测试卷对于学生来说整体难度不大,大部分题目难度与学生的能力情况匹配,题目难度符合学生的能力水平。

但在Logit值>2时,我们没有发现与学生能力相匹配的题目,表明该试卷缺少难度较大的题目而在题目难度分布一侧,大部分题目分布较为集中,表明题目间难度水平较为相同,大致分布在0 Logit~1 Logit值之间。

而第13题和第14题过于简单,学生能力水平与题目难度不接近 4 评测试卷各题项的质量分析怀特图是对评测试卷的整体质量分析,并没有对每个题目进行具体分析表1显示了评测试卷每道题目的拟合指数统计Rasch标准误(。

Rasch S.E.)表示评测试卷测量学生能力水平时的误差,相关系数(Cor.)代表题目与测量目标的拟合程度,相关系数越高,表明该题目与测量目标越接近。表1 各题质量分析表

从表1我们可以看出,大多数题目都在可接受的范围内,表明数据与模型拟合较好而且,所有题目与测量目标的相关系数都是正向的,其中第5题相关系数最小,表明该题在测量学生能力水平时得到的学生信息最少第5题、第6题的。

IMNSQ 参数值分别为 1.53、1.58(>1.5),说明学生在回答这两个题目时,低能力水平的学生正确回答了题目,而部分高能力水平的学生错误地回答了这两个题目第5题“下列材料中哪个不是天然材料”,该题的目的是考查学生对生活中接触材料的了解程度;第6题“冰箱背后的散热板为什么漆成黑色”,主要考查学生对不同颜色的吸热能力与放热能力的掌握程度,一个物质吸热越快,放热也越快。

这两题主要考查学生把知识灵活运用到生活中的能力第17.2题的IMNSQ值为0.49(<0.5),表明学生在回答该题时,无论学生能力水平高低,均不能回答正确第17.2题结合潜水艇的原理,考查学生设计开发能力、推理能力等,综合程度较高,每一种能力都会影响学生的答题情况。

因此第5、6和17.2题在区分学生能力水平的时候误差较大 5 评测试卷的题目拟合度和测量误差检验气泡图可以更加直观清晰地对每一道题目的测量误差和拟合情况进行分析在气泡图(图4)中,一个气泡代表一个题目,气泡半径大小代表标准误的大小,气泡越大则标准误越大;气泡越小则标准误越小,测量结果越精确。

图4中,纵坐标表示题目难度的测量值,题目越接近底部,表明题目越简单;横坐标代表拟合度检验的未加权均方拟合统计量(Outfit MNSQ),当该值小于0.5时表示过度拟合,在0.5到1.5之间时表示结果与模型预期拟合,大于1.5时则表示结果与模型不拟合。

从图中数据我们可以看出,大部分题目的拟合度在0.5到1.5之间,在可接受范围内,表明大部分学生的反应与预期一致,题目能够较准确地检测出学生的能力状况,题目质量良好此外,第13、14题的气泡半径明显大于其他题目,表明这两个题目的测量误差较大,其结果不够准确。

这可能是因为,这两个题目考查的是基础性知识,学生无论能力高低均能正确作答

图4 气泡图综上所述,本套评测试卷信度和效度较高、题目区分度合理,绝大多数题目达到了测量预期四、Rasch模型在试卷质量分析中的注意事项本研究以南京市小学科学六年级技术与工程素养评测试卷为例,介绍了Rasch模型的使用方法。

由于实际的测量情况不同,Rasch模型在具体应用中存在一些明显的差异以下是笔者归纳总结的Rasch模型在实际应用中需要注意的事项,评测人员在应用Rasch模型时应灵活运用 1 依据实际情况选择需要的分析功能

作为一种能力测量模型,Rasch模型具有许多分析功能,测量者不能盲目套用,需要根据实际情况选择需要的分析功能例如,一线教师如果想对自命题的试卷进行质量检验,可以采用上文所述的试卷整体质量检验功能,进行信效度分析、区分度检验,还可以从项目拟合和误差统计、气泡图等方面,对试卷质量展开进一步分析。

本文是对学生技术与工程素养的评测,所以试卷应符合Rasch模型的单维性检验不过当试卷考查的目标不同时,测量者使用Rasch模型时选择的指标也应有所不同例如,雅思考试由4部分组成:听力、阅读、写作和口语,在使用Rasch模型分析时,就不能直接套用本文中的单维性检验。

这种情况下,测量者首先需要进行多维性检验,来判断该套试卷是不是具有4个维度,然后再对每一维度的题目分别进行单维性检验,即试卷整体符合多维性检验,每一维度的题目符合单维性检验再比如,如果一名物理教师想知道男、女学生(即不同性别之间)的物理思维是否存在差异,则可以采用。

Rasch分析的DIF(different item functioning)检验总而言之,测量者应依据实际需要,选择Rasch模型对应的分析功能[4] 2 依据实际情况解释和处理问题项目当我们使用Rasch模型进行试卷项目分析时,可能会发现有过度拟合、不拟合、误差太大等问题项目,在这种情况下,我们一定要将其进行修改或删除吗?答案是不一定。

我们要依据实际情况分析问题项目出现的原因,判断这些问题项目是否超出了试卷编制的要求,是否在背景材料之外,是否超出了学生的最近发展区等,从而找出这些问题项目出现的合理原因,而不能一味地否决这些问题项目这是因为,Rasch模型只是一个检测工具,它的职责是检测出试卷中的问题项目,至于如何处理这些问题项目,则需要我们依据实际情况做出合理的判断。

以本文的评测试卷为例,试卷的题目拟合度分析显示第5、6题的实际结果与模型预期不够拟合,而第17.2题过度拟合分析后我们发现,第5、6题侧重考查学生将知识与生活相联系的能力,与学生知识掌握程度的关联不大;第17.2题考查学生的设计开发能力、推理能力等,综合程度较高,每一种能力都会影响学生的答题情况。

基于这些原因,我们认为,这3个题目可以保留 3 依据实际情况选择Rasch分析软件运用Rasch模型进行数据分析时,我们要想得到试题难度与被试能力之间的相关数值,需要通过电脑程序,采用极大似然估计法(maximum likelihood estimation),

根据被试答题情况来估测被试的能力高低与题目难度,没有办法通过测量直接获得本文所选用的程序软件为WinstepsWinsteps可协助完成Rasch模型的许多应用,特别是在教育测试、态度调查和评级量表分析等领域。

Ministep是Winsteps的缩减版本,它具备Winsteps的全部功能,区别是只能处理25个项目(item)和75个人(case)除了Winsteps和Ministep软件,测量者能够用来进行Rasch分析的计算机软件还有很多,如Bond&Foxstep和Conquest等。

随着信息技术的发展,此类软件的功能越来越完善,操作也越来越简单,一线教师和教育研究者可以自行学习并应用某一种软件来进行试卷质量分析Excel和SPSS是与Rasch分析软件相兼容的常用软件,教育工作者可依据实际情况选择合适的兼容软件。

参考文献[1]李久亮.Rasch模型在中国应用研究回顾[J].广东外语外贸大学学报,2016,27(2):73-78.[2]王桂桃,严文法,田秀云.例析Rasch模型在化学试卷质量分析中的应用[J].化学教学,2016(11):14-19.

[3]晏子.心理科学领域内的客观测量:Rasch模型之特点及发展趋势[J]. 心理科学进展,2010,18(8):1298-1305.[4]罗德红,龚婧.Rasch模型在试卷质量分析中的应用:基于五六年级学生阅读素养前测试卷的质量分析[J].教育测量与评价,2015(1):18-22.

您可能感兴趣的还有

▶Rasch模型项目参数不变性的验证研究▶基于Bootstrap方法的等百分位等值误差分析▶百分位等级的估计及其在教育与心理测量中的应用▶基于IRT等值的阅读能力增值评价▶大数据分析及其在常模研发中的应用

特别声明:♦ 本文内容来自《教育测量与评价》杂志,如有转载请注明出处。(微信号:jyclypj)♦《教育测量与评价》杂志从未委托任何中介机构组稿,录用稿件从未收取任何费用。

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186

科学科学与技术的关系图(科学与技术的关系不正确的是)这样也行?

2023-10-30Aix XinLe6

科学与技术的关系图(科学与技术的关系不正确的是)这样也行?以南京市小学科学六年级技术与工程素养评测试卷的质量分析为例,按照测量指标的选择、分析的步骤、结果的解释这一思路,探讨Rasch模型在试卷质量分析中的应用。…

历史笔记本电脑显卡天梯(笔记本电脑显卡天梯图2022最新版)全程干货

2023-10-30Aix XinLe170

笔记本电脑显卡天梯(笔记本电脑显卡天梯图2022最新版)全程干货其实,对于这个问题最好的答案是最新的笔记本显卡天梯图,通过天梯图可以秒懂时下。各主流笔记本显卡性能排名,这对于打算买独显笔记本的同学来说,有着非…

科学科学与技术的关系图(科学与技术的关系不正确的是)深度揭秘

2023-10-30Aix XinLe147

科学与技术的关系图(科学与技术的关系不正确的是)深度揭秘在哲学的世界里,意识和物质的关系一直是一个备受争议的话题。两种主要的观点分别是唯心主义和唯物主义。那么,究竟谁才是世界的主宰呢?让我们来一探究竟…

历史笔记本电脑显卡天梯(笔记本电脑显卡天梯图快科技)满满干货

2023-10-30Aix XinLe52

笔记本电脑显卡天梯(笔记本电脑显卡天梯图快科技)满满干货2019年2月桌面显卡排行天梯图 最新台式电脑显卡性能天梯图…

历史历史学学士学位(历史学学士学位申请理由)奔走相告

2023-10-30Aix XinLe1

历史学学士学位(历史学学士学位申请理由)奔走相告休眠了一段时间后,我们醒了…