第八章 - 如何运用教育测量
发布时间:2020-09-17 08:15来源:未知
第八章 如何运用教育测量
学习目的与要求
通过本章的学习,理解教育测量的基本概念、基本要素、四种水平与基本类型;熟悉学前教育工作与研究中常见的教育测验;肠胃教育测验的各类评估标准;掌握教育测验的编制与实施过程;能尝试进行测验的编制、施测与项目分析。
第一节 教育测量概述与测验列举
一、教育测量概述
测量就是按规则给对象或事物赋值。从教育研究方法的角度看,测量法就是用一组标准化测验,按照规定的程序,通过对研究对象的实际测定来收集数据资料的研究方法。测量时研究过程中收集资料的一种方式。测量与测验容易混淆,测量时对事物作定量化测定的过程或方法,是通过采用量表或具体测验实现的,测验则是测量的工具,测量比泽演含义更广泛。测量一般具备测量客体、测量内容、测量法则和测量工具等几个基本要素。
二、测量的四种水平
测量某一事物,需要有测量工具,这种工具就是量表。教育研究中,量表多以文字题目形式出现,通常可以把量表分为四种不同水平类型。
(一)称名量表
又称类别量表,是指用数字来代表事物的名称或类别它只是对个体和事物进行简单归类,既没有数量关系,也没有单位和零点。称名量表的数字不能作大小比较或进行加减运算,仅有符号的区分性,在数据处理上仅做计数资料统计。
(二)顺序量表
又称等级量表,它是按照类别的大小或事物的某种属性的重要性把一些项目排出等第次序。如成绩好的为1,次之为2,再次之为3,以此类推。
(三)等距量表
又称间距量表,是一种具有相等的单位,但没有绝对零点的量表,等距量表除了具有称名量表和顺序量表的数量性质之外,它的数量单位之间的差异是等距的,如30-32度,18-20度,温差都是2度。
(四)比率量表
又称等比量表,是一种具有相等的单位和绝对零点的量表,它除了具有上述三种量表的特征之外,还有一个具有实际意义的绝对零点。零点是指测量的起点或参照点。有些零点是人为规定的,形式相对零点,如考试成绩、智商0分等,有些具有实际意义,称绝对零点,如年龄、身高、经费开支等。
上述四种类型量表代表四种不同水平,其中比率量表层次最高、包含信息最多,将策略水平高的策略结果转换成测量水平的低的会丢失很多信息。
三、测量的基本类型
(一)按行为目标和测验内容分类
1、智力测验
结果常以智商(IQ)表示,此类测验较多,但以斯坦福——比奈测验、韦克斯勒智力测验最为著名。代表性有:比奈—西蒙智力测验、韦氏学龄前期和学龄初期儿童智力量表、格赛尔发展顺序量表、贝利婴儿发展量表等。
2、能力倾向测验
是测被试潜在的某种能力,以了解其发展可能性,如音乐、美术、体育、创造力、想象力、记忆力等方面的特殊才能的测验。
3、成就测验
是测验被试经某种学习之后,对知识、技能的掌握程度或熟练水平,如识字量、阅读、算数测验等。
4、个性人格测验
是测被试的需要、动机、兴趣、态度、气质、性格、人际关系等人格特征,较为著名的有明尼苏达多项个性测验,罗夏墨迹测验、卡特尔16项人格因素量表主题统觉测验等。
(二)按测验方式分类
1、个别测验
主试与被试一对一的测验,适合幼儿,但费时费力,短时间难以掌握大量资料,且对主试要求高
2、团体测验
一个主试同时对多个被试测验,省时省力,效率高,但被试反应不易控制。
(三)按测验材料分类
1、语言文字测验
测验内容由语言文字构成,并要求以此作答,易受被试教育文化程度影响。
2、非语言文字测验
又称操作测验,以图形、模型、实物、工具等我测试材料,适合幼儿和文字表达有困难的被试,著名的有瑞文标准推理能力测验、画人测验等。
(四)按测验参照体系分类
1、常模参照测验
指有一定代表性,并且数量足够大的样本在某项测验上的平均成绩,常模是评价被试测验成绩的相对标准。常模测验有常模对照表,且可分为全国性常模和地区性常模,如中国儿童发展量表(3-6岁),中国比纳测验(2-18岁)等。
2、目标参照测验
又称标准参照测验,是衡量被试实际水平的测验,将被试在测验上分数与事先制定好的某种标准进行比较,看其是否达标,如英语水平测试,钢琴考级等。
(五)按测验的标准化程度分类
1、标准化测验
是指由专家学者或专门机构采用系统的科学程序编制的,在测验实施过程、评分手续和分数的解释上具有统一标准,对测验误差作了严格控制的测验。
2、非标准化测验
指测验的编制和施测不安标准程序进行,通常由教师或研究人员自编,为临时测验所用的简单测验,如课堂测验、期中期末测验等。
四、测量法运用应注意的问题
在运用过程有两种基本形式:一是直接选取某个测验作为手机资料工具,二是与其他研究方法结合使用,目前在我国的运用越来越广。
(一)测量法的优缺点
1、优点
科学性强、标准化程度高、量化水平高、能直接对比研究、经济实用。
2、缺点
编制难度大、学前教育测验往往是间接测验,结果也往往是相对的、难以进行整体分析,难以揭示变了之间的因果关系。
(二)测量法的运用
1、遵守测验的职业道德
2、做好测试题保密工作
3、测试主试应具备必要的专业知识
4、确保测试过程标准化
5、学前教育的测试结果的解释与反馈要做好家长和教师的协同工作,指导他们正确对待解释结果,共同促进幼儿身心发展。
第二节 测验的编制与实施
一、测验编制
是一个复制的系统工程,但大致包括以下几个步骤:确定测验目的、拟订编题计划、编制测验题目、被试和项目分析、修订和帅选测试题目、组成正式测验、检验测验的可靠性和有效性。
二、测验的实施
(一)选择合适的测验工具
(二)按标准化测验的要求施测
(三)客观、准确地记录被试的反应
(四)合理解释测验结果
由经过培训的专业人员进行,要有依据、有分寸,不可武断作决定性结论。
对幼儿的测试,首先要取得幼儿信任,在轻松愉快的分氛围下进行,对幼儿的作答时的努力应加以称赞,而不是答对时称赞,这会影响后面的测验。还有,避免在幼儿饥、渴、累、困时进行,家长和教师最好不要在场。最后对
第三节 测验的评估标准
一、信度
是指测验结果的可靠性和稳定性,即同一个测验对同一组被试,所得测量的一致性程度,如用一杆称来称一样物品,第一次和第二次称的重量不一样,说明这杆秤不可靠,也就是不可信,信度差。
(一)重测信度
用同一种测验对同一组被试实施两次或更多次测验,前后两次测验分数间的相关系数即为再测信度,相关系数高则信度高,反之则低。
(二)复本信度
是指用两个或更多的等值测验复本,对同一组被试先后间两次或更多次测验,前后两次测验分数的相关系数即为复本信度。复本法避免了一套测验可能引起的练习效应和记忆效应。
(三)分半信度
在测验没有复本,智能施测一次的情况下,可将测验题目分成对等的两半,他们的内容和难度相当,然后根据各人在这两个测验上的分数,计算其相关系数,即为分半信度,相关系数高则信度高,反之则低。
(四)评分者信度
一些主观性测验题目(如作文、口试、唱歌、图画等)需要评判员来评分或打等级,评分会出现误差。如评分者对多份测试卷中同一题目所作的先后评阅可能会因前后次序效应而不一致;不同的评分者对同一题目也可能会有不同评判。有两种求评分者信度的方法:一是随机抽取一些测验卷重新评阅,计算两次的相关系数;二是让两个或两个以上评分者分半评阅同一批测验试卷,然后计算相关系数,了解不同评分者之间的信度。
二、效度
效度是指测验的有效性和准确性,即一种测验在多大程度上达到了测量目标。如教学能力倾向测验,如果测验结果反映了一个学生学习能力的真实程度,那么这一测验就有较高的效度,反之就较低。
(一)内容效度
是指测验题目对所要测的内容得覆盖程度,即测验题目对有关内容或行为范围取样的适当性和代表性。内容效度主要用于成就测验,通过对内容的逻辑分析,从而确定它们的代表程度。内容效度值常由该领域专家判定。
(二)效标效度
又称效标关联效度,它是通过将测验与某种外在标准作比较来确定的,效标效度是由两个量数之间的相关关系决定的,一种是测量到的量数,一种是作为参照标准的量数,后一种量数就称为效标。如对5岁幼儿在绘人智能测验中获得的分数与其半年后在《中国比纳测验》测得的智商进行相关系数比较。
(三)结构效度
是指一个测验在多大程度上测量了要测的理论构想。它验证的是所提出的理论假说是否有效的问题,当要求回答:这个测验究竟测量了什么?实际上就是在考虑这个测验的结构效度。如智力测验的结构效度是指被试解答的问题是以智力来加以解释,而不是以学习成绩或知识多少来加以解释,智力测验的结构效度越高,它所测量的智力因素也就越高。
三、难度
(一)以通过率计算难度
以通过率求难度即答对此题人数与总人数比,就是该题的难度。多用选择题
(二)以平均数计算难度
以平均数求难度即全部被试所得分数的平均数与该题满分之比。多用问答题
(三)以极端分组计算难度
先按得分高低排序,从分数序列两端各取27%作为高分组和低分组(根据正态分布,高分组和低分组各占总数的27%为最佳比例,也有人用1/3来分高分组和低分组)。高分组答对比例与低分组答对比例的和除以2即为该题的难度。
四、区分度
是指测验题目对所测量特性的区分程度或鉴别能力,是衡量测验题目质量的一个重要指标,有较高度分度的题目,对被试的特性、能力、学业水平等有较高的鉴别力,能将儿童的差异区分开来,好生得分高、差生得分低。区分度的计算常以某题的得分与该题总分之间的相关来表示。即高分组通过该题的人数比例与低分组通过该题的人数比例之和,即为该题的区分度。
学习目的与要求
通过本章的学习,理解教育测量的基本概念、基本要素、四种水平与基本类型;熟悉学前教育工作与研究中常见的教育测验;肠胃教育测验的各类评估标准;掌握教育测验的编制与实施过程;能尝试进行测验的编制、施测与项目分析。
第一节 教育测量概述与测验列举
一、教育测量概述
测量就是按规则给对象或事物赋值。从教育研究方法的角度看,测量法就是用一组标准化测验,按照规定的程序,通过对研究对象的实际测定来收集数据资料的研究方法。测量时研究过程中收集资料的一种方式。测量与测验容易混淆,测量时对事物作定量化测定的过程或方法,是通过采用量表或具体测验实现的,测验则是测量的工具,测量比泽演含义更广泛。测量一般具备测量客体、测量内容、测量法则和测量工具等几个基本要素。
二、测量的四种水平
测量某一事物,需要有测量工具,这种工具就是量表。教育研究中,量表多以文字题目形式出现,通常可以把量表分为四种不同水平类型。
(一)称名量表
又称类别量表,是指用数字来代表事物的名称或类别它只是对个体和事物进行简单归类,既没有数量关系,也没有单位和零点。称名量表的数字不能作大小比较或进行加减运算,仅有符号的区分性,在数据处理上仅做计数资料统计。
(二)顺序量表
又称等级量表,它是按照类别的大小或事物的某种属性的重要性把一些项目排出等第次序。如成绩好的为1,次之为2,再次之为3,以此类推。
(三)等距量表
又称间距量表,是一种具有相等的单位,但没有绝对零点的量表,等距量表除了具有称名量表和顺序量表的数量性质之外,它的数量单位之间的差异是等距的,如30-32度,18-20度,温差都是2度。
(四)比率量表
又称等比量表,是一种具有相等的单位和绝对零点的量表,它除了具有上述三种量表的特征之外,还有一个具有实际意义的绝对零点。零点是指测量的起点或参照点。有些零点是人为规定的,形式相对零点,如考试成绩、智商0分等,有些具有实际意义,称绝对零点,如年龄、身高、经费开支等。
上述四种类型量表代表四种不同水平,其中比率量表层次最高、包含信息最多,将策略水平高的策略结果转换成测量水平的低的会丢失很多信息。
三、测量的基本类型
(一)按行为目标和测验内容分类
1、智力测验
结果常以智商(IQ)表示,此类测验较多,但以斯坦福——比奈测验、韦克斯勒智力测验最为著名。代表性有:比奈—西蒙智力测验、韦氏学龄前期和学龄初期儿童智力量表、格赛尔发展顺序量表、贝利婴儿发展量表等。
2、能力倾向测验
是测被试潜在的某种能力,以了解其发展可能性,如音乐、美术、体育、创造力、想象力、记忆力等方面的特殊才能的测验。
3、成就测验
是测验被试经某种学习之后,对知识、技能的掌握程度或熟练水平,如识字量、阅读、算数测验等。
4、个性人格测验
是测被试的需要、动机、兴趣、态度、气质、性格、人际关系等人格特征,较为著名的有明尼苏达多项个性测验,罗夏墨迹测验、卡特尔16项人格因素量表主题统觉测验等。
(二)按测验方式分类
1、个别测验
主试与被试一对一的测验,适合幼儿,但费时费力,短时间难以掌握大量资料,且对主试要求高
2、团体测验
一个主试同时对多个被试测验,省时省力,效率高,但被试反应不易控制。
(三)按测验材料分类
1、语言文字测验
测验内容由语言文字构成,并要求以此作答,易受被试教育文化程度影响。
2、非语言文字测验
又称操作测验,以图形、模型、实物、工具等我测试材料,适合幼儿和文字表达有困难的被试,著名的有瑞文标准推理能力测验、画人测验等。
(四)按测验参照体系分类
1、常模参照测验
指有一定代表性,并且数量足够大的样本在某项测验上的平均成绩,常模是评价被试测验成绩的相对标准。常模测验有常模对照表,且可分为全国性常模和地区性常模,如中国儿童发展量表(3-6岁),中国比纳测验(2-18岁)等。
2、目标参照测验
又称标准参照测验,是衡量被试实际水平的测验,将被试在测验上分数与事先制定好的某种标准进行比较,看其是否达标,如英语水平测试,钢琴考级等。
(五)按测验的标准化程度分类
1、标准化测验
是指由专家学者或专门机构采用系统的科学程序编制的,在测验实施过程、评分手续和分数的解释上具有统一标准,对测验误差作了严格控制的测验。
2、非标准化测验
指测验的编制和施测不安标准程序进行,通常由教师或研究人员自编,为临时测验所用的简单测验,如课堂测验、期中期末测验等。
四、测量法运用应注意的问题
在运用过程有两种基本形式:一是直接选取某个测验作为手机资料工具,二是与其他研究方法结合使用,目前在我国的运用越来越广。
(一)测量法的优缺点
1、优点
科学性强、标准化程度高、量化水平高、能直接对比研究、经济实用。
2、缺点
编制难度大、学前教育测验往往是间接测验,结果也往往是相对的、难以进行整体分析,难以揭示变了之间的因果关系。
(二)测量法的运用
1、遵守测验的职业道德
2、做好测试题保密工作
3、测试主试应具备必要的专业知识
4、确保测试过程标准化
5、学前教育的测试结果的解释与反馈要做好家长和教师的协同工作,指导他们正确对待解释结果,共同促进幼儿身心发展。
第二节 测验的编制与实施
一、测验编制
是一个复制的系统工程,但大致包括以下几个步骤:确定测验目的、拟订编题计划、编制测验题目、被试和项目分析、修订和帅选测试题目、组成正式测验、检验测验的可靠性和有效性。
二、测验的实施
(一)选择合适的测验工具
(二)按标准化测验的要求施测
(三)客观、准确地记录被试的反应
(四)合理解释测验结果
由经过培训的专业人员进行,要有依据、有分寸,不可武断作决定性结论。
对幼儿的测试,首先要取得幼儿信任,在轻松愉快的分氛围下进行,对幼儿的作答时的努力应加以称赞,而不是答对时称赞,这会影响后面的测验。还有,避免在幼儿饥、渴、累、困时进行,家长和教师最好不要在场。最后对
第三节 测验的评估标准
一、信度
是指测验结果的可靠性和稳定性,即同一个测验对同一组被试,所得测量的一致性程度,如用一杆称来称一样物品,第一次和第二次称的重量不一样,说明这杆秤不可靠,也就是不可信,信度差。
(一)重测信度
用同一种测验对同一组被试实施两次或更多次测验,前后两次测验分数间的相关系数即为再测信度,相关系数高则信度高,反之则低。
(二)复本信度
是指用两个或更多的等值测验复本,对同一组被试先后间两次或更多次测验,前后两次测验分数的相关系数即为复本信度。复本法避免了一套测验可能引起的练习效应和记忆效应。
(三)分半信度
在测验没有复本,智能施测一次的情况下,可将测验题目分成对等的两半,他们的内容和难度相当,然后根据各人在这两个测验上的分数,计算其相关系数,即为分半信度,相关系数高则信度高,反之则低。
(四)评分者信度
一些主观性测验题目(如作文、口试、唱歌、图画等)需要评判员来评分或打等级,评分会出现误差。如评分者对多份测试卷中同一题目所作的先后评阅可能会因前后次序效应而不一致;不同的评分者对同一题目也可能会有不同评判。有两种求评分者信度的方法:一是随机抽取一些测验卷重新评阅,计算两次的相关系数;二是让两个或两个以上评分者分半评阅同一批测验试卷,然后计算相关系数,了解不同评分者之间的信度。
二、效度
效度是指测验的有效性和准确性,即一种测验在多大程度上达到了测量目标。如教学能力倾向测验,如果测验结果反映了一个学生学习能力的真实程度,那么这一测验就有较高的效度,反之就较低。
(一)内容效度
是指测验题目对所要测的内容得覆盖程度,即测验题目对有关内容或行为范围取样的适当性和代表性。内容效度主要用于成就测验,通过对内容的逻辑分析,从而确定它们的代表程度。内容效度值常由该领域专家判定。
(二)效标效度
又称效标关联效度,它是通过将测验与某种外在标准作比较来确定的,效标效度是由两个量数之间的相关关系决定的,一种是测量到的量数,一种是作为参照标准的量数,后一种量数就称为效标。如对5岁幼儿在绘人智能测验中获得的分数与其半年后在《中国比纳测验》测得的智商进行相关系数比较。
(三)结构效度
是指一个测验在多大程度上测量了要测的理论构想。它验证的是所提出的理论假说是否有效的问题,当要求回答:这个测验究竟测量了什么?实际上就是在考虑这个测验的结构效度。如智力测验的结构效度是指被试解答的问题是以智力来加以解释,而不是以学习成绩或知识多少来加以解释,智力测验的结构效度越高,它所测量的智力因素也就越高。
三、难度
(一)以通过率计算难度
以通过率求难度即答对此题人数与总人数比,就是该题的难度。多用选择题
(二)以平均数计算难度
以平均数求难度即全部被试所得分数的平均数与该题满分之比。多用问答题
(三)以极端分组计算难度
先按得分高低排序,从分数序列两端各取27%作为高分组和低分组(根据正态分布,高分组和低分组各占总数的27%为最佳比例,也有人用1/3来分高分组和低分组)。高分组答对比例与低分组答对比例的和除以2即为该题的难度。
四、区分度
是指测验题目对所测量特性的区分程度或鉴别能力,是衡量测验题目质量的一个重要指标,有较高度分度的题目,对被试的特性、能力、学业水平等有较高的鉴别力,能将儿童的差异区分开来,好生得分高、差生得分低。区分度的计算常以某题的得分与该题总分之间的相关来表示。即高分组通过该题的人数比例与低分组通过该题的人数比例之和,即为该题的区分度。