普通话水平测试题库建设的理论与实践王渝光陈典红杨万兵提要以国家主管部门发布的《普通话水平 测试大纲》为指导,以云南省试行的普通话水平测试实践为基础,针对普通话水平测试的特点,采 用经典测量理论CTT作为题库建设的数学模型,试制了在统计语言学和教育测量学方面等值的规 范试卷,初步建立了普通话水平测试题库。《普通话水平测试大纲》(以下简称《大纲》)的“总 论”明确指出:“要选取编制较好的试卷,进行信度、区别度和难度分析,通过分析的试卷可以在 测试机构内作为标准卷推广使用,并逐步建立测试题库。”云南省经过近三年的努力,先后输入计 算机10万余汉字,命制试卷260套,分析取样23314人次,录入230余万数据,设计各 种计算机程序30余个,进行了不同计算机语言的程序组合,建立了大小400余个有关测试信息 的数据库,试制了一批在统计语言学和教育测量学上等值的规范试卷,初步建立了普通话水平测试 题库。一普通话水平测试的特点普通话水平测试与其他语言测试的主要区别在于它是完全的口语测 试,具有语音标准的模糊性、成绩评定的主观性、测试方式的个别性。语音标准的模糊性:由于语 音是一个连续的模糊变量,正确、错误之间没有明显的界限,这给准确的评判带来一定的困难。试 验之初,我们的正误评判,与一般的标准化考试的评判方式相同,只有正确、错误两种。后来把成 绩评定方法分为发音正确、发音错误和发音缺陷三种情况,并对同一套题的单字部分进行了评判方 式的对比实验,实验结果如下:平均难度平均区分度信度区分正确、错误071802530 823区分正确、缺陷、错误078302920972这些数据表明,区分发音正确、 发音缺陷、发音错误是评判方法的一个重大改进,它符合语言发音模糊性的客观实际,能有效地避 免许多有争议的发音,使得成绩评定趋于合理,统计分析出的试卷信度也有较大提高。成绩评定的 主观性:虽然明确规定了正确、缺陷、错误这三种情况的评判尺度,但从实际操作看,由于个人主 观因素的影响,不同的测评员对这些尺度的掌握不完全相同,会产生测评误差。对于普通话水平测 试成绩的主观性问题,一方面通过加强测评员的培训来解决,另一方面对测评员评出的成绩进行复 查和必要的宏观调整,以求把成绩评定主观性的误差降到最低限度。测试方式的个别性:普通话水 平测试是口试。一套试卷在使用后即部分失去了保密的价值,既会影响考试的公平性和严肃性,也 会影响测试数据的准确性和可靠性。普通话水平测试的个别性特点,决定了测试必须同时准备多套 等值的试卷,试卷使用后必须在一定时间和一定范围内继续保密。二普通话水平测试题库建设的理 论基础普通话水平测试题库建设是一种综合教育测量学与应用语言学研究成果的多学科综合应用技 术,是一个开放性的系统工程。其基本内容和实施步骤包括:确定题库建设的理论基础;根据普通 话水平测试大纲确定测试的范围、题型、题量及测试方法;拟定编题计划;确立测试标准;命制题 目;审定题目;拼组试卷;实施测试;评定并复查成绩;分析试题、试卷质量;搜集、整理、分析 有关测试数据;确立测试规范;根据需要,组配命制若干套等值的规范试卷;检测教学效果,进行 信息反馈,指导教学等。题库建设的关键环节,是规范卷的研制。目前,国内外比较流行的题库建 设理论有“经典测量理论”(CTT)和“项目反应理论”(IRT)。经典测量理论(CTT) 以考生对题目的作答成绩作为真分数的估计值,并以此来确定题目的难度、区分度等数值,其数学 模型的主要参数是样本的平均数、标准差、相关系数等。这种理论的数据解释容易为人们理解,有 广泛的社会基础。它的最大局限在于,各种数据的获得有赖于考生团体样本的选取,抽样不当,就 会严重影响数据的准确性。项目反应理论(IRT)以考生对题目的作答概率为媒介,并以此来确 定题目的难度、区分度等数值,其数学模型的主要参数是题目反应曲线的特征参数。这种理论不受 团体样本的影响,具有线性变换下参数估计的不变性,测试具有很高的精确性。但它的计算甚为复 杂,有关数据的理解较为困难。从普通话水平测试的口语特点来看,采用CTT建立题库有着更为 现实的可能性和可操作性。采用CTT理论建立题库,关键是样本的选取一定要合乎规范,具有代 表性。试卷样本必须有一定的数量,并且在平均分、各分数段的分布比例等方面应与试卷的总体尽 可能相近,符合正态分布的原则,这样统计分析出的数据才有科学性、代表性。云南师范大学的学 生来自全省各地,测评员评判标准较为统一,测评(员)信度较高,在教育测量分析中,试卷的取 样多以该校学生的试卷为主。三普通话水平测试规范试卷的研制1命题方式普通话水平测试的命 题方式一般有个人单独命题和集体集中统一命题两种方式。试制之初,我们采用个人单独命题的方 式。个人的试题命制好后,由省普通话水平测试中心广泛征集,审查确定。这样的命题方式,单从 一份试卷来看还是有质量高的,若把不同的试卷放在一起比较,就发现存在严重的问题:试卷不规 范,字词的总体覆盖面太窄,重出的太多。对这类试卷作统计分析,工作量大(一般一套试卷至少 有2万个原始数据需要录入),事倍功半。后来我们采用了集中统一命题方式,除必要外,一个字 词在甲卷出现了,就不在乙卷以后的卷子中出现。这种命题方式,各卷之间的字词覆盖面大体相等 ,又极大地减少了字词的重复。若干份这样的试卷汇总起来的数据,就能从宏观上展现普通话水平 测试的总体面貌,展现普通话常用字词的总体数据指标,也能从微观上展现普通话每一常用音节、 常用字词的数据指标,进而为规范卷的命制提供了宏观把握的尺度和微观运用的数据。2规范卷 的题量和覆盖面从理论上看,题目的数量越多,覆盖面越广,每个题目上的随机误差将相互抵消, 测试的可靠性也就越高。但是,题量的增大会延长测试时间,给测试的可操作性带来一定的困难。 在保证较广覆盖面和较好测试数据的前提下,选择一个适度的量是必要的。《大纲》规定:在单音 节字词、双音节词语这两部分中,各部分每个声母的出现次数一般不少于3次,韵母不少于2次。 这样,除个别情况(如ueng、er)外,每个声母至少考查了6次,每个韵母至少考查了4次 ,因而从数量上保证了较高信度的要求。有的声韵母,涵盖的汉字较少,在多套试卷中必然不断地 反复出现。为使不同的规范卷完全相同的字词不至于出现得较多,对于这些声韵母出现的次数,可 作适当的调整。作为规范卷的覆盖面,应该尽可能地大。从试卷的外观形式来看,单字、词语部分 不应出现相同的字词,多音字应尽量避免在单字部分出现,某些字词在朗读篇目中不应过分集中, 两个任选话题应有较大差别,朗读材料不应对话题有提示作用,以保证试卷有足够广的覆盖面,保 证在相对较少的时间内考查到尽可能多的内容。《大纲》规定:单音节词考100个,双音节词考 50个,朗读考400个音节的短文。在有文字凭借的材料中,总共考了600个音节,基本可以 折算为600个字。最理想的规范卷是在这600个字中,覆盖了汉语普通话的400个音节,没 有重出的字词,可是,试卷的命制实际上达不到上述要求。单字、词语部分的字词可以避免重出, 朗读部分却不可避免地会出现词语重复的情况。什么样的题量和覆盖面指标数据对于规范试卷的研 制是科学而又实际可行的,我们以云南省普通话测试前期实验的试卷数据为参照项,并根据国家《 大纲》制定的试卷数据,对此进行了大量的分析比较研究。(1)试卷题量的比较1)单字的题量 国家《大纲》规定,单字部分考100个单音节字词,参照项考50个单音节词。国家《大纲》4 6套抽样卷和参照项30套抽样卷的难度、信度数据比较如下:平均难度最高难度最低难度平均信 度最高信度最低信度国家(大纲)0768073408000974098009 69参照项077507330826076808740640(注:难度数据越 低,难度越高)数据显示,单字部分考100个单音节词与考50个单音节词的平均难度没有较大 的差别,但考100个单音节词远比考50个单音节词的信度高,测试成绩更加准确可靠。2)词 语的题量国家《大纲》规定,词语部分考50个双音节词,其声母韵母的出现次数同单字部分,同 时注意考查上声变调、轻声、儿化等词语。参照项考40个双音节词,着重考查云南人容易读错的 词语和上声的变调、轻声儿化等词语。国家《大纲》46套抽样卷和参照项30套抽样卷的难度、 信度数据比较如下:平均难度最高难度最低难度平均信度最高信度最低信度国家《大纲》083 908090868095909770944参照项08210802084 8082608720784词语部分的数据显示,参照项考的是云南人容易读错的词语, 因而难度偏大。国家《大纲》没有这一问题,难度相对较低。考50个双音节词语的信度也同样较 高。这些数据说明,普通话水平测试按照全国统一的标准命题,难度适中,信度较高。针对方言命 题,容易产生难度偏大,标准多变,信度较低等负面效应。3)朗读的题量国家《大纲》规定,朗 读部分考400个音节的短文。参照项考300个音节的短文。国家《大纲》46套抽样卷和参照 项30套抽样卷的难度数据比较如下:平均难度最高难度最低难度国家《大纲》084007 980862参照项085908320891朗读部分的数据显示,考400个音节的 短文与考300个音节的短文难度仅呈算术级数的增长(因为是倒扣分)。如果从计分来看,没有 什么本质的区别。4)说话部分国家(大纲)与参照项没有较大区别。(2)试卷覆盖面的比较单字、词语部分的字词完全避免重出,可以有效地提高试卷的覆盖面;只有大幅度地提高朗读篇目的字词覆盖面,才能更有效地提高整个试卷的覆盖面。在对国家《大纲》中的50篇400字的朗读材料的统计中,可以看到汉字的覆盖面并不平衡,参照项100篇300字的朗读材料的汉字覆盖
More summaries about the 普通话水平测试题库建设的理论与实践