大学英语四、六级考试的分数解释

大学英语四、六级考试现在考生数已达到每年900万，由于命题的科学性、评分的一致性、组织的严密性、成绩的可比性和可解释性，大学英语四、六级考试在社会上已有广泛影响，并且已经在国际上受到重视。由于种种原因，四、六级考试结果可能对学生有重要影响，因此是一项高风险考试，组织这样一项考试是极其严肃的心理测量学科学工作，又是一项艰苦细致的、政策性很强的工作。

　　大学英语四、六级考试是一种大规模标准化考试。人们常常把标准化考试等同于多项选择题，又把多项选择题等同于模拟试题集，于是指责标准化考试考不出学生水平等等，这是一种极大的误解。英语标准化考试是指采用教育测量技术对学生的英语能力进行客观、准确、公正的测量，并提供一种公认的客观标准, 通过对学生语言运用的抽样检查来确定学生的实际语言能力。大规模标准化考试为了保证考试的信度和效度，对考试有很高的质量要求。大学英语四、六级考试在设计时力求做到：

1) 评分具有客观性、一致性

2) 对教学具有正确的指导性

3) 分数具有可比性、可解释性

4) 施考条件对所有考生以及不同考次的考生一律平等

5) 便于施考

　　为了保证考试的效度，大学英语四、六级考试通过调查研究制定了考试大纲、定义了所测量的英语语言能力、编制了详细的考试内容规范，使历年测试在形式和内容上都稳定不变，保持了评价标准的稳定性。

　　考试的最终结果是以分数的形式报道考生成绩，这就涉及分数的可解释性问题。如果分数任意性很大而且又不可解释，不同考次的成绩因为没有经过等值处理而不可比较，那么这样的考试就不符合标准化考试的规范要求，就很难说是科学的考试。

　　为此，大规模标准化考试一般不采用原始分（即答对题数）来报道考生成绩，因为这样做分数的信息量太小，通常要进行一系列的分数转换过程，使最后报道的分数不但信息量大而且具有可解释性。

　　大学英语四、六级考试每次考试结束后到发布考试成绩之前，要经过一系列的统计处理，分为数据输入、数据处理、成绩计算及统计分析三部分，其流程如图1所示。

　　其中数据输入后的数据处理包括三个部分：

1）客观题部分首先要作加权处理，加权反映了语言测试设计者对语言能力不同部分的不同要求，反映了对不同教学目标的侧重。大学英语四、六级考试中阅读能力、听力、词汇等各个部分每答对一题的得分都是不同的。在经过加权处理后，还要对客观题部分用IRT（试题响应理论）模型作等值处理，以滤除不同考次间题目难易变化对得分的影响。尽管大学英语四、六级考试的全部题目在实际使用前都要经过“命题—审题—试题项目分析—复审—构卷”的漫长过程，在实考前整个试卷的难易度均已得到控制，但预测是在考生中抽样进行的，与实考结果难免会有所差异，这些差异须要通过IRT等值处理加以滤除，不能因题目难易而影响考生得分，这样做也保证了不同考次之间分数的可比性（见图2）；

2）主观题部分，如作文，要通过调整以滤除阅卷员主观因素的影响。

　　为了保证阅卷员的阅卷信度（包括阅卷员本人的评分一致性、阅卷员之间的评分一致性、阅卷点之间的评分一致性），大学英语四、六级考试采取了一系列措施，包括制定明确的评分标准、确定评分参照卷(range-finders)、严格的阅前培训、阅卷过程随机抽查等等。在采取以上这些有效措施后依然存在的误差可以称为系统误差，大学英语四、六级考试开发了一套软件系统，根据考生在主、客观题上得分的相关性进行调整，以滤除系统误差。

　　事实上，四、六级考试每次要在全国范围内动员1500~2000名教师阅卷，阅卷工作是一种辛苦的付出，阅卷过程有严格的质量控制措施，并且用计算机滤除阅卷员的主观因素，使阅卷信度达到0.87，这在国内各种大规模考试中是很不容易做到的。

3）分数的正态化处理。

　　大规模标准化考试的记分体制根据考试目的的不同通常采用正态分制或等级分制。这两种记分体制所表示的分数都带有大量信息，便于用户使用。

　　大学英语四、六级考试的性质和目的，决定大学英语四、六级考试是一种尺度相关-常模参照考试（criterion-related norm-referenced test），其记分体制采用以百分制为形式的正态分制。

本新闻共3页,当前在第1页 1 2 3