福州市林风名师工作室
学员登录
登录
工作室介绍
20150831

  福州市林风名师工作室自2004年成立以来,积极贯彻全国教育工作会议精神,认真研究和推进我市数学教学的改革,提高我市数学教学的质量,培养更多的优秀中青年教师,同时也更大程度上发挥我市名优教师的指导、示范、辐射作用。

在线报名
姓名
*
电话
*
了解途径
验证码
 换一张
*
提交

【转帖】任子朝,佟威,赵轩,等:高考试题难度预估研究

任子朝,佟威,赵轩,等:高考试题难度预估研究

任子朝 等 数学教育学报JME 11月27日

引用格式:任子朝,佟威,赵轩,等.高考试题难度预估研究[J].数学教育学报,2018,27(5):13-16.

作者信息              

任子朝,佟威,赵轩,陈昂

(教育部考试中心,北京 100084)

任子朝(1961—),男,北京人,教育部考试中心研究员,主要从事数学教育、教育测量研究.

基金项目              

国家教育考试科研规划2017年度课题——新高考不分文理科后的数学命题研究(GJK2017005)


摘要      
高考由于其高利害性和敏感性,不能通过考前试测预先掌握试题难度,只能在命题过程中依靠命题人员主观预估确定试题的难度.在命题人员对每个试题进行难度预估后,可以采用各种统计方法对预估值进行数据处理,例如求预估难度与实测难度的相关系数,计算每人预估的平均差异,计算预估值的标准差等.根据数据处理的结果,确定对预估值与实测值的拟合程度和每个命题人员的预估精度,从而在以后的年份科学地利用预估数据预测高考试题的实测难度.


关键词:高考;预估难度;实测难度;统计分析
中图分类号:G632.0  文献标识码:A  文章编号:1004–9894(2018)05–0013–04


1问题提出      

《普通高等学校招生全国统一考试大纲》对高考提出了明确的测量指标要求:“高考应具有较高的信度、效度,必要的区分度和适当的难度.”[1]高考由于其高利害性和敏感性,不能通过考前试测的方法来掌握试题难度.但由于难度是考生和中学教师最关注的统计指标之一,对录取和中学教学都有重要的影响,所以在考前预估试题难度,以便及时在命题中进行相应调整就显得尤为重要.这里以2017年高考数学试题难度预估数据和实考的统计数据为基础,讨论高考试题难度预估的策略,对预估数据进行统计分析的方法及对预估值的合理利用.


2研究设计和数据分析      

2.1  命题教师预估      

以高考数学学科为例,试题定稿后,每个命题教师对高考Ⅰ、Ⅱ、Ⅲ卷文、理科共6套试卷进行难度预估,逐个估计每个试题的难度.命题教师估计的基础包括往年类似试题的难度统计数据,当年试题与往年试题的区别,当年考生的平均水平等.随后进行两项统计,一是把所有教师在每个试题的预估值进行平均,得出该题全体教师预估的平均难度;二是把每个教师在一份试卷预估的每个试题难度进行加权平均,得出该教师对该份试卷的预估难度.因保密原因,隐去每个教师的姓名,只以编号代替.每个教师都对6套试卷的138个试题进行了难度预估.

2.2  对命题教师预估数据的分析处理      

高考结束以后,对考生数据进行系统抽样和计算分析,得出当年6套试卷的实考数据.将教师预估数据和实考数据进行对比分析.在表1中,将教师预估难度的平均值与实测统计值进行比较,用平均值减去实测统计值,差值为负说明预估值低于实测值,差值为正说明预估值高于实测值.

表1   2017年专家预估难度(全国Ⅲ卷理科)

(1)计算每个教师预估值高于或低于实测值的试题数量.

图1中零点水平线以上柱体表示6套试卷中该名教师预估得分率大于实测得分率的试题数量;零点水平线以下柱体表示该名教师预估得分率小于实测得分率的试题数量.例如第一位教师的估计有78个试题过高,60个试题过低.从图1中可以看出,预估值大于实测值的试题数量平均为77.5个,小于实测值的试题数量平均为60.5个,平均多出17个试题,说明专家对学生能力的判断总体偏高.

图1   2017年专家预估与实测难度差异的分值对比

(2)将每个教师估计的误差值相加,计算每个教师的平均差异.

图2中柱体表示命题专家平均每道试题预估得分率大于实测得分率的值.由于是计算误差值的代数和,所以存在误差值正负相抵的问题.从中依然可以看出,所有教师的估计平均值都高于实测值.

图2   2017年专家预估与实测难度平均差异对比

(3)将每个教师估计的误差值的绝对值相加,计算每个教师的平均差异.

图3中柱体表示命题专家每道试题预估得分率与实测得分率之差的绝对值的平均数.由于是计算误差值的绝对值的和,所以不存在误差值正负相抵的问题.绝对值差可以用来量化描述命题专家预估得分率与实测得分率的相近程度,即预估的稳定程度.从中可以看出图2差异值最大的教师,在图3中的差异值较小,说明该教师的预估虽然总体偏高,但其误差值的绝对值的和较小,即预估的稳定性较好.

图3   2017年专家预估与实测难度平均绝对差对比

(4)求每个教师估计值与实测值的相关系数,判断每个教师预估值与实测值的拟合程度.求全体教师估计平均值与实测值的相关系数,并与每个教师进行比较.判断教师预估平均值的拟合程度.

从表2可以看出,每个教师的预估值与实测值的相关系数都大于0.7,说明其相关性很高,即教师对试题难易的感知与实测结果吻合度较高.教师的平均值与实测值的相关最高,说明全体教师的平均预估结果好于每个教师的预估结果.

表2   每个命题教师预估值与实测值的相关性分析

(5)考察教师每个试题预估值的标准差.表1中的标准差是全体教师预估值的标准差,从表1中可以看出,教师预估值与实测值差异大的试题其预估值的标准差不一定大,但标准差大的试题其预估值与实测值差异都比较大.例如,全国III卷理科数学的第1题、第10题的预估与实际差异非常大,但是预估值的标准差相对较小;全国III卷理科数学第5题、第12题的预估标准差较大,其预估值与实测值的差异也较大,这可能是因为这些试题比较新颖,教师对其与考生水平的吻合程度估计不准,教师间的认识分歧较大,所以造成了预估值的标准差较大.因此在进行难度预估时,应特别关注预估值标准差较大的试题.

(6)把教师分为两组,每组独立估计试题难度,考察教师组间差异性.数学组的命题工作分为两个组平行推进,A组(T1、T2、T3、T4、T6、T12),B组(T5、T7、T8、T9、T10、T11、T13),为了比较两个组教师预估值的差异,分别采用4种模型进行分析.模型一:假设试题难度受3种因素影响:两种水平因素(专家组之间的预估难度水平差异和试题间的难度水平差异)和随机误差,建立双因素方差分析模型.模型二:不考虑试题难度水平,认为每个试题作为随机样本,难度基本服从正态分布,建立两个专家组的单因素方差分析.模型三:经过验证样本符合独立样本的方差齐次性,进行独立样本均值t检验.模型四:每个命题专家作为独立的水平,通过单因素方差分析模型考查专家预估难度之间是否有显著性差异.基于4个模型的分析结果显示两组专家在高考数学全国卷的6套试题上的难度预测没有显著性差异(α=0.01).

(7)计算教师在每一道题上的平均预估难度与实测难度的差异(如图4、图5所示).

图5把6套试卷的所有题目进行编号并按照实测值从低到高排列;将每道试题对应的教师平均预估难度画成曲线图.可以看出,在试题实测值较低的部分,教师平均预估值整体偏高,说明教师对较难试题的预估偏容易;在试题实测值较高的部分,教师平均预估值整体偏低,说明教师对较易试题的预估偏难;在实测值较为适中的中间段,教师平均预估值较为准确.

图4   教师预估平均值与实测难度散点图

图5   教师平均预估难度与实测难度关系

(8)计算教师预估的试卷难度值与实测试卷难度值的差距(如表3、表4所示).

教师对全国Ⅰ、Ⅲ卷理科预估值与实测值偏差较小,对全国Ⅰ卷理科和全国Ⅲ卷理科的估计误差分别为0.01和0.02,达到了相当高的估计精度.在其余几套试卷上,例如全国Ⅱ卷理科,预估误差较大,而且教师间的估计值的波动性也较高,因此在今后预估时,对标准差比较大的情况应该特别关注,及时进行讨论、调整.整体而言,教师的整卷预估难度高于实测值,说明教师对学生总体水平的预估偏高.

表3   教师整卷难度预估

表4   教师整卷难度预估均值与整卷实测难度对比


3结论和思考      

(1)全体教师的预估值和实测值都是显著相关,但总体偏高.应在今后每年的命题中更多积累数据,关注各年教师估计偏高的平均值,在以后的命题中,对教师预估值进行相应的调整和修正.

(2)教师预估难度时,教师间预测的稳定性存在差异.有三分之一左右老师的预测稳定程度较高,即他们的预估更准,应更多关注他们的预估值.

(3)预估值标准差大的题目,预估数据与实测数据差别相对较大.应该特别关注标准差大的题目,对预估值标准差较大的题目,应组织全组讨论预估情况,集体确定更加准确的预估值.

(4)两组之间预估值没有显著差异,可能是经过交叉互审,已经对题目非常熟悉.应该在第一轮交叉互审时预估难度,及时调整.

(5)研究试题难度预估值和试卷难度预估值之间的关系,注重研究试卷整体难度预估的方法和规律.

(6)在当年的命题工作中将预估与实测难度的差异对比结果反馈给命题专家,根据统计结果进行难度预估的调整,并结合具体试题对难度评判的标准进行讨论和校正,发挥集体智慧,共同讨论难度预估的合理性与准确性问题.


参考文献      

[1] 教育部考试中心.普通高等学校招生全国统一考试大纲(理科)[M].北京:高等教育出版社,2017:1.