dunno why

测验的项目分析

第一节测验的难度

难度是指测验项目的难易程度。一个测验项目，如果大部分被试都能答对，则该项目的难度就小；如果大部分被试都不能答对，则该项目的难度就大。

进行难度分析的主要目的是为了筛选项目，项目的难度水平多高合适，取决于测验的目的的项目形式以及测验的性质。

1、在教育工作或实际工作中，若测验的目的是为了了解被试在某方面知识技能的掌握情况，可以不必过多地考虑难度，只要教育者认为重要的内容就可以选用，甚至那些通过率为 100％或为 0 的项目都可以采用。

2、如果测验的目的是用于选拔录用人员，就应该将项目的难度控制在接近录取率左右，即较多地采用那些难度值接近录取率的项目。

例如，要从高中生中选拔 15％的人参加全市的数学竞赛，则就应提高项目难度，使 P

值接近 0.15。

一、难度的计算

测验的记分方法不同，项目难度的计算方法也有所不同。

（一）二分法记分项目的难度

1、通过率

如果不考虑被试作答是猜测成功的机遇，二分法记分测验项目的难度通常以通过率来表示，即以答对或通过该项目的人数的百分比来表示：P=R/N (6.1)

式中，P 代表项目难度，N 为全体被试数，R 为答对通过该项目的人数。

以通过率表示项目的难度，通过人数越多，P 值越大，其难度就越小；通过人数越少，P 值越小，难度越大，题目越难。所以有人也称 P 值为容易度。事实上，这里的 P 值与我们通常所了解的难度意义正好相反。

2、极端分组法

当被试人数较多时，则可以先将被试依照测验总分从高到低排列，分成三组，总分最

高的 27％被试称为高分组（），总分最低的 27％被试为低分组（），分别计算高

分组和低分组的通过率，然后求项目的难度。

　（6.2）或

式中、分别表示高分组和低分组的通过率；、表示高分组和低分组通过该

项目的人数；、分别代表高分组和低分组的人数。

（二）非二分法记分项目的难度

对于论述题，每个项目不只有答对和答错两种可能结果，而是从满分至零分之间有多种可能结果。对这类项目，常常用下面的公式来计算其难度。

（6.3）

式中为被试在某一项目上的平均得分，为该项目的满分。

二、难度的等距变换

1、难度存在的缺陷

以项目的通过率来表示项目的难度，虽然计算方便，易于理解，但这类难度指标属于顺序变量，不具有相等的单位，所指出的仅仅是项目的相对难度。例如，3 个测题的难度指数分别为 0.60,0.70,0.80，我们只能说：第一题最难，第二题次之，第三题最容易。虽然三题难度分别相差 10％，但我们不能说第一题与第二题的难度之差等于第二题与第三题之的难度之差。通过率 P 无法指出难度之间差异大小，可见顺序性这一点，对我们作进一步的难度分析带来了困难，必须设法将它转换成等距量表。

2、难度转化为 Z 分数

当样本容量很大时，测验分数接近正态分布。此时，我们可以根据正态分布曲线表，将试题的难度 P 作为正态曲线下的面积，转换成具有相等单位的等距量数，即 Z 分数。我们知道，在正态分布中，平均数之上或之下一个标准差的距离约占全体人数的 34％，因此，如果在一个测验中某项目 A 通过率为 84％（P=0.84），那么从图（6.1）

可以看出，这项目的难度就在平均数以下一个标准差位置，即难度为-1σ；如果某项目 B 的通过人数只有 16％，（=0.16）则这个项目的难度为+1σ；若某题 C恰好有 50％的人通过（P=0.50），则该题的难度为 0，应用此方法，任何一个与通过率相当难度值都可以通过查正态分布表得到。显然，较难的项目难度为正值，较难的项目难度为正值，较

易的项目难度为负值。由于标准分数具有相等单位，属于等距量表。所以，用标准分数作为项目难度的指标，为进一步作难度分析带来了极大的方便。

3、难度转换为美国教育测量服务中心采用的难度指标

但是 Z 数有小数点和负值，所以表示难度也有不便之处，通常需要转换成另一种单位的等距量表。其中较为常用的是美国教育测量服务中心采用的难度指标：△ =13+4×Z (6.4)

式中，△表示题目难度，Z 表示由 P 值转换得来的标准分数。△值越大，则难度愈大，△值愈小，难度越低。

对一般教师来说，只要计算出 P 值即可。但如果要作更精确的统计分析，则就需要计算出具有等距量表性质的△值。

三、难度对测验分数的影响

（一）测验难度影响测验分数的分布形态

测验的难度直接依赖于组成测验的项目的难度。通过考察测验分数的分布，可以对测验的难度作直观分析。

若测验项目的难度普遍较大，被试的得分普遍较低，使得测验分数集中在低分端，其分数分布呈正偏态；当测验题目的难度普遍较小，被试的得分普遍较高，测验分数集中在高分端，分数分布呈负偏态。

测验难度过大或过小，都会造成测验分数偏离正偏态分布。但是，由于人的多数心理特质是正态分布。而我们目前所采用的统计方法（例如前面介绍的难度的等距交换）又大都是以正态分布为前提，所以大多数测验在设计时希望分数呈现正态分布模式。因此，当测验的分数分布为明显偏态时，可通过改变项目难度的比例来加以调整。

通常，若被试的取样具有代表性，对于中等难度的测验，其分数分布呈现正态分布。

（二）测验难度影响测验分数的离散程度

过难或过易的测验，会使测验分数相对地集中在低分端或高分端。当难度集中在 0.50附近时，分数的分布范围较广，方差较大，而当难度集中在两端，即不是太难，就是太易时，分数分布范围最小。分数分布范围较广，使之具有较高的稳定性，从而信度高。第二节测验的区分度

一、区分度的意义

（一）区分度的意义

区分度是指测验项目对被试心理品质水平差异的区分能力。

具有良好区分度的项目，能将不同水平的被试区分开来，也就是说，在该项目上水平高的被试得高分，水平低的被试得低分。反之，区分度低的项目则对不同水平被试不能很好地鉴别，水平高与水平低的被试，所得分数差不多，甚至正好相反。所以测量专家们把试题的区分度称为测验是否具有效度的“指示器”，并作为评价项目质量，筛选项目的主要指标与依据。必须指出：评价测验项目区分度高低倚赖于对被试水平的准确测量，通常称作为内部效标。

（二）区分度的取值

区分度（D）的取值范围介于-1.00 至+1.00 之间。通常 D 为正值，称作积极区分；D

为负值为消极区分；D 为 0 称作无区分作用。具有积极区分作用的项目，其 D 值越大，区分的效果越好。

（三）区分度的相对性

1、不同的计算方法，所得区分值不同

不同的计算方法，所得区分值是不同的。因此在分析同一个测验时，各个项目的区分度要采用同一种指标，否则不便分析比较。

2、样本容量大小影响相关法区分度值的大小

一般说来，样本容量越小，其统计值越不可靠。所以在计算出 r 值后，不能仅从数值大小判断试题的优劣。而应运用统计显著性检验法，检验区分度值是否显著。

3、分组标准影响鉴别指数值（D）

极端组划分的标准不同，求得的区分度值也不同。分组越极端，其 D 值越大。通常取27％作为极端划分的标准。

4、被试样本的同质性程度影响区分度值的大小

被试团体越具有同质性，即个体之间水平越接近，其测题的区分度值就越小。反之，若是施测于具有较大异质性的被试团体，即使是对另外一同质团体来说区分度很小的项目，也可能具有很高的区分度。另一方面，区分度也是相对于不同水平的被试团体的。所以，项目的区分度大小是针对特定团体而言的。

二、区分度的计算

（一）项目鉴别指数法

这种方法较适合于二分法记分的测验项目。

1、鉴别指数的计算

当效标成绩是连续变量时，可以从分数分布的两端各选择 27％的被试，分别计算出每

道题目上的各自的通过率，二者之差就是鉴别度指数（D），即：（6.5）

式中与分别表示高分组和低分组在该项目上的通过率。

D 值是鉴别项目测量有效性的指标，D 值越高，项目越有效。1965年，美国测验专家R.L.Ebel 根据长期经验提出用鉴别指数评价题目性能的标准如表 6.1 所示。　

表 6.1　题目鉴别指数与评价价标

鉴别指数题目评价

0.40 以上很好

0.30-0.39 良好，修改会更好

0.20-0.29 尚可，仍需修改

0.19 以下差，必须淘汰

2、极端组的划分

在项目难度和鉴别指数分析中多次提到划分高分组与低分组，一般情况下，是根据效标成绩或测验总分将被试排队，取 27％的高分端被试组组成高分组，另外 27％的低分端被试作为低分组，其余 46％的被试可以不作分析。

有人曾证明当分数分布是正态分布时，这种分配方法很有效，它既可以使两个对比组间的差异尽可能大，又可以使两组人数尽可能多。

当效标分数较正态分布平坦时，高低分组各占的比率应略高于 27％，约在 33％左右。一般情况下，其比率介于 25％～33％即可。但如果是标准化测验，习惯上仍采用 27％。

如果比率太小，如 10％，则所选出来的两组过于极端，二者之间的差异非常明显，人为夸大了题目的区分程度；当样本团体人数过少时（n＜100），则不宜用 27％的规则，甚至可以用 50％作为分界点，即把上、下两半被试作为高分组与低分组。

使用极端分组法主要是为了计算方便，但是这种方法只利用了一部分信息，浪费了很多信息，所以统计结果比用全部资料计算的准确性差些。当项目与效标之间是直线关系时，这种分析法对结果的准确性来说影响不大。但当项目与效标之间并非直线关系时，使用极端分组法会丧失许多有价值的信息，甚至可能得出错误结论。

（二）相关法

用鉴别指数分析项目区分度虽然易于理解，计算方便，但结果不精确。在大规模的或标准化的测验中，多采用相关法，即以项目分数与效标分数或测验总分的相关作为项目区分度的指标。相关越高，项目区分度越高。

1、点二列相关

点二列相关适用项目是 0、1 记分（或二分变量），而效标或测验总分是连续变量的数

量资料，其计算公式为：（6.6）

式中：为点二列相关系数；为通过该项目被试的平均效标分数；为未通过

该项目被试的平均效标分数；p 为通过该项目被试的人数百分比；q 为未通过该项目被试

人数的百分比；为全体被试的效标分数的标准差。

对点二列相关计算出的数值需进行显著性检验，检验方法有(1)采用对积差相关系数检验的方法进行检验。(2)用 t检验的方法比较二分变量对偶的两组连续变量的平均数的差异

是否显著，如平均数（与）的差异显著，则相关系数也显著。

2、二列相关

二列相关适用于连续的测量变量。但其中一个变量因为某种原因被人为分成两类。例如，当一个测验的项目分数是连续的，而效标或测验分数被分为高低或及格、不及格两个类别时，可以采用二列相关法；当效标或测验总分是连续的，而项目分数被人为分成对、错或通过、未通过两类，也可以采用此方法。其计算公式为：　

（6.7）

式中为二列相关系数；其余各量的意义同(6.6)中个量的意义；y 为正态分布下 p

与 q 分割点正态曲线的高度。

3. 相关

相关的统计方法适用于两个变量是二点分配的资料，即两个变量都是二分名义变量。

在有些情况下，一些连续变量也可以用此方法计算相关程度。相关不要求变量呈正态分

布。所求指标系数。

在用系数作为区分度指标时，要求项目反应与效标变量都是二分状态。一般是根据

效标成绩或测验总分的高分组和低分组，通过和未通过某一项目的人数列成的四格表来计算。计算公式为：

式中为的相关系数，a,b,c,d 分别为四格表中四项所包含的人次数。

4、积差相关

对于论文式测验题目，因得分具有连续性，在被试团体较大时，可以认为项目分数服从正态分布。可将项目得分与效标分数求积差相关系数以得到项目的区分度。

以上介绍的四种相关法，在实际项目分析中，究竟采用哪一种，依照变量的性质而定。但是它们分析所得的结果是一致的。

三、区分度与难度的关系(右图）

难度越接近 0.50，项目潜在的区分度越大，而难度 D 越接近 1.00 或 0 时，项目的潜在区分度越小。这就是在常模参照测验中，要求项目保持中等难度的道理之一。

但是在实际编制测验时，我们却不能使所有的项目都保持在 0.50 的难度。因为一个测验中的项目大多趋向于与有关的内容或技能具有某种程度的相关。假若所有的题目都完全相关（r=1）,并且都是 0.50 的难度水平，在一个项目上通过的人在其他各项目上也会通过，在一个项目上失败的人，在其他项目上也将失败，那么一半被试将通过每一个项目。另一半被试将全通不过。这时的分数就成了 V型分布。因而测验提供的信息便相对减少了。

事实上，如果测验的所有项目都是中等难度，只有在项目的内在相关为 0 时，整个测验分数才产生正态分布。实际测验中，一般各项目之间都具有某种程度的相关，考虑到这点，

我们在利用项目分析选择试题时，应使项目的难度分布广一些，梯度大些，使整个测验的难度分布呈正态分布，且平均水平保持在 0.50。这样才能把各种水平的人都区分开来，并且区分得较细。

第三节猜测问题与猜测率

一、客观测验题中的猜测问题与猜测率

（一）客观测验题中的猜测问题

在客观题中有一个重要的问题：测验分数确实反映了被试的真实状况，还是因为猜测而获得成功。因为在客观题中，猜测会提高他们的分数，在是非题，配对题及选项较少的选择题，这种影响格外明显。

（二）猜测率

被试凭猜测选择正确答案的机会是 1/K（K 是每题中选项的数目）。这样对是非题（K=2）而言，猜测就能获得 50％的成功机会；而四重选择题，其猜测正确的概率就为25％。显然，大量的猜测就会对是非题和选择题的分数产生很大的影响，从而对测量带来误差，即猜测误差。

（三）猜测误差的来源

猜测误差来源有：

① 猜相对于不猜引起的误差。在四重选择题中，猜与不猜所导致的差异平均将达到 10

分左右。

② 是否猜得对引起的误差。即猜测过程中因随机得分情况不同所引起的误差。按照概率原理，是非题猜对的概率是 1/2，四重选择题是 1/4，五重选择题是 1/5，但这是对被试团体平均而言的，即 N 个被试参加测验，100 个四重选择题仅凭猜测能猜对 25 题。具体到某个人，他实际猜对几题并不一定与概率值相等。

通过上面的分析，有人认为，由于对某些测验项目，猜测会引起项目难度的变化，允许猜测将使通过率或得分高于被试的实际水平。为此，有必要对猜测校正。二、项目难度受猜测影响的校正

（一）猜测校正的性质与公式

在选择题测验中，猜测的成功概率受项目备选答案数目（K）的影响（P=1/K），备选答案数目越少，机遇的作用越大，被试的得分将越高于他们的真实水平，根据难度的计算公式求出的难度就越不能反映出项目的真实难度。为平衡机遇对难度的影响，可采用下式来对难度进行校正：

CP=（KP-1）/（K-1）（6.11）或 CP=P-q/K-1(6.11')

式中 CP 为校正后通过率，P 为实际通过率，K 为备选答案数目；q=1-p。

如果要比较两个选项数目不同的测题难度，必须应用公式（6.11）分别将两个测题的难度进行校正，然后才能进行比较分析。

公式（6.11）是对全体被试而言的，即根据被试团体在某项目上的通过率而计算校正难度。若对某个被试来说，参加由多个项目所组成的测验，同样有必要对他们的得分进行校正，以求出能反映出他真实水平的校正分数，校正公式只需将公式（6.11）稍作变换即得下式：

S=R-W/（K-1）（6.12）

式中 S 为校正后的得分，R 为被试答对的项目数，W 为被试答错的项目数，K 为项目的选项数目。

（二）猜测校正公式的优缺点

公式（6.11）（6.12）的基本假设是：被试不知道正确答案时，完全凭猜测作答，猜测的成功与否完全由随机因素所致，即选择哪一个备选项是随机决定的。在实际测验中，这种假设很少成立。因此，对上述校正公式存在很大的分歧。

1、赞成使用校正公式的人认为：

（1）可避免降低测验的信度。因为如果不使用校正公式，被试比如会盲目猜测而影响测验的信度；使用答错题道扣一定的分数，则被试不敢盲目猜测。

（2）校正后的得分可以反映被试的真正水平和能力。对每个项目来说，校正后可以反映项目的真实难度，便于在备选答案的数目之间进行统计比较分析。

（3）在教育测验中，可以培养被试诚实的美德。如果鼓励尽量答题，并允许猜测，且不扣分，则会使学生心存侥幸，有害于健全人格的培养。反之，如果采取校正猜测，则可以培养成学生“知之为知之，不知为不知”的良好品德。

（4）比较公平。即使事前鼓励学生答完全部试题，但事实上总有人无法答完全部试题，所以使用猜测校正的方式比较公平。

2、反对使用猜测校正公式的人认为：

（1）公式的基本假设不成立。因为被试答错试题，并非都是存心投机取巧。事实上，有些学生答错，可能是观念模糊、记忆错误或粗心大意所致。大多数情况下，均是先舍弃部分诱答，再就剩下的几个选项来猜测，而非盲目猜测。

（2）只要被试能回答全部试题，则猜测校正无实质作用。根据统计学方法，将分数转化为相对分数后，校正前后的分数完全相同，说明两种分数对于决定分数的高低具有相同

的作用。虽然校正前后分数不同，但两者的相关系数为 1.00，所以采用校正，只是采用线形变换，降低被试的得分，增加记分的复杂性，不仅浪费时间，且易发生错误。

（3）不采用猜测校正对信度并无重大影响。根据台湾学者黄国彦研究（1977）；鼓励被试猜测，其影响只有 4％左右，此项缺点可通过增加试题的数目来提高测验信度。

（4）有时会出现无法解释现象。一个学生如果答对题数等于或少于答错的题数。校正后便会得到零分或负分。

（5）实际生活中，经常缺乏充分的证据与资料，必须凭借部分知识来判断，且进行合理猜测是值得培养的习惯。测验时，若不准被试猜测，则与现实生活不符。事实上，许多科学上的发现是在把握不很大的情况下，先提出猜想，而后慢慢证实的。人的某些猜测依靠的是直觉思维，这是对事物整体的认识，虽然没有经过严密的逻辑推理，但并非完全瞎猜。

综上，对于是否需要采用猜测校正，并无定论。但是在答题时间充裕，备选答案数目（K）在四个或以上的选择题，则没有必要进行校正记分。

（二）猜测校正公式的优缺点

公式（6.11）（6.12）的基本假设是：被试不知道正确答案时，完全凭猜测作答，猜测的成功与否完全由随机因素所致，即选择哪一个备选项是随机决定的。在实际测验中，这种假设很少成立。因此，对上述校正公式存在很大的分歧。

1、赞成使用校正公式的人认为：

（1）可避免降低测验的信度。因为如果不使用校正公式，被试比如会盲目猜测而影响测验的信度；使用答错题道扣一定的分数，则被试不敢盲目猜测。

（2）校正后的得分可以反映被试的真正水平和能力。对每个项目来说，校正后可以反映项目的真实难度，便于在备选答案的数目之间进行统计比较分析。

（3）在教育测验中，可以培养被试诚实的美德。如果鼓励尽量答题，并允许猜测，且不扣分，则会使学生心存侥幸，有害于健全人格的培养。反之，如果采取校正猜测，则可以培养成学生知之为知之，不知为不知"的良好品德。

（4）比较公平。即使事前鼓励学生答完全部试题，但事实上总有人无法答完全部试题，所以使用猜测校正的方式比较公平。

2、反对使用猜测校正公式的人认为：

（1）公式的基本假设不成立。因为被试答错试题，并非都是存心投机取巧。事实上，有些学生答错，可能是观念模糊、记忆错误或粗心大意所致。大多数情况下，均是先舍弃部分诱答，再就剩下的几个选项来猜测，而非盲目猜测。

（2）只要被试能回答全部试题，则猜测校正无实质作用。根据统计学方法，将分数转化为相对分数后，校正前后的分数完全相同，说明两种分数对于决定分数的高低具有相同的作用。虽然校正前后分数不同，但两者的相关系数为 1.00，所以采用校正，只是采用线形变换，降低被试的得分，增加记分的复杂性，不仅浪费时间，且易发生错误。

（3）不采用猜测校正对信度并无重大影响。根据台湾学者黄国彦研究（1977）；鼓励被试猜测，其影响只有 4％左右，此项缺点可通过增加试题的数目来提高测验信度。

（4）有时会出现无法解释现象。一个学生如果答对题数等于或少于答错的题数。校正后便会得到零分或负分。

（5）实际生活中，经常缺乏充分的证据与资料，必须凭借部分知识来判断，且进行合理猜测是值得培养的习惯。测验时，若不准被试猜测，则与现实生活不符。事实上，许多科学上的发现是在把握不很大的情况下，先提出猜想，而后慢慢证实的。人的某些猜测依靠的是直觉思维，这是对事物整体的认识，虽然没有经过严密的逻辑推理，但并非完全瞎猜。

综上，对于是否需要采用猜测校正，并无定论。但是在答题时间充裕，备选答案数目（K）在四个或以上的选择题，则没有必要进行校正记分。第四节多重选择题的项目分析

一、多重选择题的作用和优点

多重选择题因能比较有效地控制猜测导致的测量误差，能测量较复杂认知目标，能为改进教学提供更多的反馈信息，且具有易于评分、能用计算机阅卷等优点，在教育与心理测验中，应用极其广泛。当然也可以用难度和区分度来分析。

二、用多重选择题的项目分析可以解决的问题

（一）项目是否具有所预期的功能？对于常模参照测验，测题是否有足够的区分度？对目标参照测验来说，测题是否能充分地测量到教学的结果。

（二）项目的难度是否得当？

（三）项目是否有缺陷？

（四）诱答选项是否都有效？

（一）和（二）可以采用本章第一、二节所介绍的方法进行分析。这里主要就（三）（四）两点进行讨论，即通过被试对选择项反应模式的分析来改进并提高测验项目的质量。

三、具体分析的步骤为：

（一）按被试测验的总分，从高到低依次排列试卷。

（二）从最高分依次向下取全部试卷的 27％作为高分组。

（三）从最低分依次向上取全部试卷的 27％作为低分组。

（四）分别登记高分组与低分组选中各选择项的人数（亦可将人数换为人数比例），然后登记。

（五）根据登记结果进行选择项的质量分析。

四、对选择项的反应模式注意从以下几个方面进行分析：

（一）如果正确的备选答案被所有的受测者所选择，说明该项目太容易或者可能是项目中提供某种暗示，使正确答案过于明显。

（二）如果某个错误答案没有任何被试选择，则说明该项目不具有迷惑性，错得过于明显，除增加阅读时间外，不起任何作用。一般说来，除非有 2％以上的人选择，否则该备选答案应该修改或删掉。

（三）如果所有被试都选择了同一个错误答案，可能是编制测验时把正确答案搞错了，也可能是在教学中发生了错误。

（四）如果高分组被试的选择集中在两个答案上，二者选择率接近，说明该题可能本来就有两种正确答案，或者在某种意义上另一个选择项也有一定的道理。

（五）如果高分组对正确答案的选择率与低分组相等或低于后者，说明该题所考察的东西与被试水平无关，即不具有鉴别力，此题应删除或作大的修改。

（六）如果一个题目被试未作答的人数较多（速度性测验除外），或选择各个备选答案的人数相等，说明该项目可能过难或题意不清，被试无法作答或凭猜测作答。

Documents

dunno why