人教首页

课程教材研究所

当前位置:首页   >   课程教材研究所   >   课程研究   >   课程理论   >   课程实施

试论基于课程标准的学生学业成就评价*

时间:2012-03-23作者:华东师范大学 崔允漷 上海市教育科学研究所 夏雪梅

摘 要:为什么要将学生学业成就评价建立在课程标准之上,意义何在?为了设计基于课程标准的学生学业成就评价,地方或学校怎样对课程标准进行进一步的处理,将其转化为评价标准?怎样让学生的学业成就评价建立在课程标准之上?本文围绕这三个核心问题,给出思考和行动的框架,并不在求得划一的程序,旨在引发有益的思考。

 

关键词:课程标准;学业成就评价

 

在我国当前的教育环境下,课程标准取代教学大纲并不难,难在要使课程标准真正发挥作用,成为教材编写、教师教学和学生学业成就评价的依据。这三点中无论哪一点都不是一件简单的事情,尤以学生学业成就评价为最。只有当评价这一最后的出口是基于标准的时候,前两者才有可能是基于标准的。但关于基于标准的评价,目前国内还没有太多研究,在对学生学业成就评价改革的方向、内容的众说纷纭中,标准似乎被有意无意地遗忘了。事实上,这次课程改革的诸多理念都凝聚在标准上,如果在评价和标准间迟迟不能建立有意义的联系,将使我们的评价和标准都无所依托。这就难怪美国加利福尼亚大学的评价研究中心(CSECenter for the Study of Evaluation)2002年的报告中宣称:基于标准的教育体系的成功依赖于两个要素:强有力的标准和能衡量出标准所期望的学习结果的评价。[1]基于此,本文旨在厘清基于标准的学生学业成就评价中的三个关键问题,为地方和学校进一步设计基于标准的学生学业成就评价提供思考和行动的框架。

 

一、为什么学生学业成就评价要基于课程标准

 

意义的问题看似简单,但如果我们不能开展广泛而有益的探讨,厘清为什么这样做的清晰意义,并让实践者建立坚定的行动决心,政策和实践往往会出现反弹和逆流。因此,我们需要从最原点的问题来思考:学生学业成就评价的目的是什么?课程标准是怎样促成学生学业成就评价达成此目的?从最根本的层面上说,学生学业成就评价有两个目的。对外,要能满足公众问(accountability)的要求;对内,要能满足学生学习改善(improving learning)的要求。[2]而从下文的分析中我们可以看到,这两个目的的实现都离不开课程标准。课程标准是学生学业成就评价达至公平、有效的基石,它承担着学业成就评价标准的功能和职责。

 

(一)课程标准规范学业成就评价的设计理念

 

任何一种学业成就评价都是基于对教学、学习、学习者的能力的假设而做出的,这些隐藏的设计理念在很大程度上决定了学业成就评价的性质、范围、方法、使用的工具。课程标准的意义就在于对不同类型的学生学业成就评价从基本的设计理念上进行统一。

 

当前实践中的各级考试很少以学习、教学、学习者的能力的共同期望为设计基础。不同的考试之间没有联系,甚至出现相互矛盾的情况。在这种情况下,难以保证教育质量,难以应对日益强烈的问责要求,更难以促进学生的学习。课程标准所蕴涵的为了每一位儿童发展的理念旨在促进学生全面、持续、和谐地发展,它相信每一个儿童的可塑性和巨大的潜力。它认为真正的有效教学不是灌输,而在于从学生已有的生活经验和概念基础出发,帮助学生建构他们自身的知识框架。这种观念给各级学业成就评价的设计带来新的可能性,只有建立在这一理念基础上的学业成就评价才能真正应对今日的公众问责,才能真正促进学生的学业改善。

 

(二)课程标准提供学业成就评价的维度框架

 

学业成就评价应该评什么?当前的学业成就评价的考察维度是比较单一的,有的甚至仅仅测量了学生的记忆力。地方或学校往往通过设立特定的分数界限比较各地、各校、各学生之间的差异,衡定谁好谁劣,借此达到问责要求。缺少专业评价素养的公众很难追问:这张考卷考察的是学生的哪些能力呢?不同考卷所代表的80分差异在何处?但是,很多研究都表明,为了应对越来越激烈的竞争和挑战,为了促进学生的有效学习,学业成就评价的维度需要并正在扩大。[3]而课程标准正给我们设计学生学业成就维度框架提供参照。

 

课程标准是对学习结果的界定。它对学习结果的理解并不像一般人理解的那样,只是学习成绩,它包括多种学习结果,以数学课程标准为例,就从知识与技能、数学思考、解决问题、情感与态度等四个方面作出限定。总之,它倡导学生主动参与、乐于探究、勤于动手,培养学生搜集和处理信息的能力、获取新知识的能力、分析和解决问题的能力以及交流与合作的能力。[4]课程标准给我们设计学业成就评价的维度提供参照,它促使我们思考:学业成就评价到底评哪些维度?它们之间的比重是均衡的吗?学业成就评价应该设计怎样的工具、方法来测量、报告、解释它们?

 

(三)课程标准限定学业成就评价的内容范围和认知要求

 

学生学业成就评价需要基于统一的内容范围和一致的认知要求。如果不同类型的学业成就评价是基于不同范围的学习内容和不同程度的认知要求而制定的,必然会引起极大的混乱。当前的很多学业成就评价是经不起追问的:选择考察的样本能够代表同样的知识内容吗?对认知的要求有偏差吗?这就导致学校和教师对到底要学哪些知识,要学到何种程度感到无所适从,只能用大量的题海战术来对付。因此,课程标准要对学业成就评价在内容范围和认知要求上做出限定。

 

课程标准从本质上说就是设立全国学生要知道些什么,做些什么的底线。[5]它不仅划定了学习的领域和疆界,还给出学到何种程度的描述,即内容标准和表现标准,前者划定了学习的领域,保证学生学到、考到的内容是全面而均衡的。后者回答很好是多好?”“怎样好才是足够好?等问题,促进学生在不同程度上的学习。[6]通过将学生学业成就评价设立在标准之上,可以规范不同类型的学业成就评价,减少偏题、怪题,也可以比较容易地形成一套教师、学校、地方和国家不同层级协调一致的综合的学生学业成就评价体系。

 

二、怎样将课程标准转化为评价标准

 

在解决意义问题之后,我们需要关注的一个瓶颈问题是如何将课程标准变成评价标准,因为课程标准的规定性相对而言是比较弱的。它按照年段进行设计,是对学生课时目标的累积期望,而且目前的课程标准对学生的认知要求并不十分明确,这就使课程标准的规定性要大大低于教学大纲,显得比较含糊,作为评价标准就显得规定性不足。因此,在设计基于标准的学生学业成就评价的时候,地方和学校就不能直接应用标准,而是要对标准进行一定的处理,将年段的内容标准进一步细化为年级内容标准、单元内容标准、每节课的内容标准等等,并制定出相应的表现标准,以作为评分时的依据。它们之间的关系用下图可以表示得更加清楚。

 

 

 

各级标准之间的关系

 

(一)内容标准的技术考量

 

国家对基础教育的绝大多数课程都已经设定标准,但是综合实践活动和校本课程还没有统一标准,所以在考虑内容标准的时候,又分成两种情况,一种是针对那些已有标准的课程,另一种是针对那些没有统一标准的课程。对已有的内容标准的处理可以遵循以下几个步骤:

 

第一,对内容标准的处理进行规划。对诸如谁参加内容标准的处理工作,责任和权限如何,资金怎样分配,技术如何保障,时间如何安排等一系列问题的规划。在确定参与人员时,最重要的是选择多样性的代表。

 

第二,进行背景研究,深入理解课程标准。搜集并研究与标准有关的各类文献。寻找课程标准中所有的关键概念、命题、公式,并确认它们的逻辑关系。这一步的研究保证课程标准中的所有内容在地方和学校自行形成的标准中得到全面体现。

 

第三,对内容标准细化、调适。这一阶段是极为重要的,虽然在地方和学校形成的各级内容标准中必须覆盖国家制订的所有标准,但对不同地方和学校来说,可以有不同的组织和呈现方式,也应该针对不同情况进行细化。在这一阶段,地方和学校应该提供机会建立不同类型的沟通机制和讨论机制。将大量的基层教师纳入其中,倾听他们的声音。

 

第四,运用多样的方法对处理后的标准进行评论和验证。可以采用外部评论委员会、中介机构、焦点小组等方式。

 

第五,在内容标准处理的最后阶段,应该将研究的资料和结果加以总结整理,并告知不同的利害关系人。

 

标准的形成并不是一劳永逸的,而建立的评价又是高利害的,因此,应该每隔一段时间就对标准进行再检视和修订。同时,要防止这样的误解:只有评价可以修改,标准就一定是正确的,事实上,通过评价的数据对标准进行进一步的完善也是一种可行并必要的方法。

 

学校内实施的课程有一小部分是没有标准的,如综合实践活动、地方课程、校本课程,这些课程因为是根据学校、地方的具体情况而开设的,所以无法制订统一的内容标准。但是,对那些有条件的地方和学校来说,引导教师们积极讨论,审慎思考学生应该知道什么,能做什么,开发出一定的核心内容标准,也是可行的,而且这本身就是非常有益于对这类课程的性质、意义、教学和评价策略的专业探讨。形成新的内容标准的步骤大致也是遵从上面的步骤,但要考虑到教材、评价之间的一致性。

 

(二)表现标准的技术考量

 

基于标准的学生学业成就评价需要清晰的表现标准,才不至于在设计评价或者制定评分量规时引起歧义。惟在于国家层面上的表现标准比较模糊,例如,数学标准第一学段的数与代数能灵活运用不同的方法解决生活中的简单问题,并能对结果的合理性进行判断。对这些表述,都是很难达成共识的,什么程度算熟练,怎样才是灵活,都需要地方和学校进一步明晰。因此,为让地方、学校、教师明白什么样的好才是好,做到什么程度就够了,地方和学校在国家标准的基础上进一步发展起来的表现标准,应该是清楚、具体、可测的。

 

完整的表现标准体系包括以下四个方面,地方和学校可以借助以下框架并根据自己已经开发出来的内容标准思考对表现标准的处理:(1)表现水平:学生表现级别,如优秀、比较优秀、一般等;(2)表现描述:描述各级表现水平上学生知道什么,应该做什么;(3)范例:说明各个表现水平上学生作业样例(应该包括与内容标准的整个范围和深度有关的样例);(4)分数线:区分各级表现水平的分数。[7]

 

 

 

表注:这一问题是整个表现标准形成过程中最为重要的问题。关于如何编制有如下一些过程和策略:收集国内外已有的表现描述文本;与专家协商;研究内容标准;研究评价资料;描述出各个表现水平的期望草案。

 

在进一步形成表现标准的过程中,地方或学校可思考如下一些问题,可能更有助于表现标准的合理化。

 

对教师来说,限于时间、精力和能力,往往不可能开发出如上所述的非常精致和完善的表现标准,所以教师在进一步思考表现标准的时候,尤其是在处理综合实践活动、校本课程等没有统一的表现标准参照的课程的时候,有一个简易的办法,就是将已经制订的内容标准的关键特征转为我能的陈述。从学生的角度看,我能的陈述可以帮助学生获得标准所要求的关于学习目标的清晰图像。如我能阅读关于科学、历史等主题的教材或文章我能选择一个我喜欢的作者或是某种类型的文章并阅读其中的节选

 

三、怎样让学生学业成就评价建立在标准之上

 

这是基于标准的学生学业成就评价中很关键的一个问题。它保证学业成就的分数是基于课程标准的测验,保证从学业成就测验而来的结果与解释的有效推论。美国在开发基于标准的测验的过程中,州的典型做法是要求测验开发者创建与课程标准匹配的测验,再对其进行匹配度(alignment of standards and assessment)检验和一系列的试卷分析。迄今为止,已有四种比较成熟的模式来帮助判断学生学业成就评价和标准之间的匹配、一致程度:(1)韦伯模式(Webb model);(2)实施课程的调查模式(surveys of enacted curriculum model);(3)成就公司模式(Achieve Inc.model);(4)基础教育委员会模式(Council for Basic Education model)我们对这四种模式进行总结,提炼出如下的操作程序。

 

(一)形成考察匹配程度的维度

 

衡量评价和标准之间的关系,并不是简单的是或否的问题,而是一系列的集中性回答匹配程度的维度。这四种模式虽然关键特征、所使用的方法各有不同,但都是将基于标准的评价分成若干维度来审视。仅在于一开始就思考评价维度的形成是比较困难的,我们可以从问题入手,将怎样将评价建立在标准之上这个大问题分解成如下几个小问题。

 

1)是否每个评价衡量的都是在标准里反映出的内容和技术?

 

2)是否每个评价都是对标准所反映的重要的知识与技能的公平、有效的抽样?每种评价在何种程度上衡量了那个年级水平的关键内容和技术?

 

3)是否每个评价都具有足够的挑战性?因为要测量标准中所强调的知识和技能是很容易的,而对那些复杂的概念、拓展性推理和高级思维很难测量。

 

当然,这样的分解并不是绝对的,还可以有其他的分解方法。考虑到对初次涉入此领域的地方或学校来说,还是比较抽象的。如成就公司发展出了如下四个维度:内容的集中性(content centrality);表现的集中性(performance centrality);挑战(challenge);平衡和范围(balance and range)[8]基础教育委员会发展出了另外四个维度:内容(content)、内容平衡(content balance)、严密(rigor)、项目反应类型(item response type)[9]地方或学校可以根据自己的实际情况进行维度的开发。

 

(二)考察测验细目表

 

在评价员将自己的观点加在评价之前,首先要倾听评价开发者的声音,最省力的途径就是考察细目表。因为测验细目表是测验形成的依据,所以第二步就考察测验细目表,检视开发者自己的题目和标准之间的一致性。当然,这要建立在评论员对标准和与之相关的各种文本进行深入研究的基础上。

 

评论员要审慎查看细目表检测的是哪些标准,是否包括了应当有的标准,对标准的理解和所列举的范例是否适当,每一个标准所分配的题目数及题目质量等是否合适,并在检视过程中就先行剔除那些明显不符合标准或有错误的题目。在分析测验细目表时,要轮流检查每一个题目,并确认题目内容和标准内容是否匹配。有时候一个题目会牵涉几个标准,这时评论员就要非常谨慎,区分这个题目主要是测量哪一个标准。必要时,评论员可以自己对照标准形成测验细目表,并将自己的细目表和测验开发者形成的细目表加以比较。这一阶段结束后,最好要有一个简要的报告呈现给开发者,以作为改进测验之用。

 

(三)对题目逐一进行分析

 

测验题目通常都由两个方面组成。一是题目的内容,二是题目的认知要求,如记忆、选择、分析、归纳等等,所以对题目的分析也从这两方面来进行。前者要求评论员检视每一个题目内容和与之相连的标准内容。在进行分析的时候,评论员要考虑标准的特性和细化程度,以及它要评价的内容的范围。后者要求评论员考虑每个题目的认知要求和标准所描述的认知要求之间匹配的质量。这一点往往被人们忽略,但却是非常重要的,常见的错误就是当标准强调高级思维的时候,而测验题中往往只是用背诵、记忆的方式来检测。

 

值得注意的是,在这里要考察的并不仅仅是题目,还包括对标准的进一步处理,因为,有时评价不是基于标准的原因在于标准,当标准过于宽泛或是用词含糊时,也会出现不能匹配的现象,因此,韦伯也指出,匹配度的检验程序必不可少的一步是学术标准的系统性分析,并认为标准分析应该先于评价分析进行。[10]

 

(四)整体测验的质量分析

 

完整的考察标准和评价的匹配程度不仅要考察单个的题目,还要对整体的试卷进行分析。对一个个题目的考察是基础,对整体的试卷进行分析以考察标准之间的相互联系更为重要。以成就公司模式为例,在它发展出的四个维度中,前两个维度是对单个的题目进行的分析,而后两个维度挑战”“平衡和范围就是考察整体试卷的质量。挑战又可以分成两个方面,一是挑战的来源,二是挑战的水平。前者是保证题目的难度来自标准所指向的知识和技能。后者要评论员考虑到被评价的概念的性质和学生要得出答案所要进行的思维类型,测验中的一系列题目对特定年级水平的学生是否富有挑战性做出总体的判断。它认为考虑挑战这个因素是保证我们可以基于测验做出这样的推论:学生在这些题目上做得好是因为学生掌握了富有挑战性的学科内容,学生在这些题目上表现不好,就是因为他没有掌握这些内容,而不是因为学生的背景知识等其他原因。平衡和范围是指整个测验应该覆盖标准的完整范围,同时也要注意不同重点之间的适度平衡。

 

*本文是教育部人文社会科学重点研究基地重大项目《基于课程标准的学生学业成就评价研究》的研究成果之一;也是教育部哲学社会科学研究重大课题攻关项目《素质教育课程评价体系研究》的研究成果之一。

 

注:

 

此处的基于标准的学生评价并非从测量学的角度来讲,它不是标准化测验(standardized test),也不是标准参照测验(criterion-referenced test),更不是20世纪70~80年代提倡的最低能力掌握学习

 

尤其是对累积性标准考虑,各个学校是不同的。要经过一个年级段才能达成的目标怎样将其纳入到各个不同的年级和单元主题中去,各个地方和学校的考虑是大不相同的。

 

可以看到,这四种模式都是由外部的中介机构接受州或地方的委托而做的,这样就可以避免对内部评价的公信度的拷问。但是,这样的机构在我们国家现在还是缺失的,随着改革的继续推进,独立的能够对测验进行评估的机构的建立势在必行。

 

参考文献:

 

[1]Robert Rothman, Jean B. Slattery, and Jennifer L.Vranek.2002.Benchmarking and Alignment of Standards and Testing.CSE Technical Report 566.http://www.cse.ucla.edu.

 

[2]Stephen Chappuis, Richard Stiggins, Judith Arter, and Jan Chappuis. Assessment For Learning. Portland, OR: Assessment Training Institute.2005.

 

[3]Mien Segers, Filip Dochy and Educardo Cascallar. Optimising New Modes of Assessment; In Search of Qualities and Standards. Dordrecht; Boston: Kluwer Academic Publishers.2003.3.

 

[4]教育部.基础教育课程改革纲要(试行),2001.

 

[5]No child left behind issue brief:a guide to standards-based assessment 2000.http://www.ecs.org/ clearinghouse.

 

[6]Goals 2000:Educate America Act.http://www.ed.gov/ legislation/Goals 2000/The Act.

 

[7]Hansche. Meeting the Requirements of Title I: Handbook for the development of Performances Standards. Washington, DC:Council of Chief States School Officers.1998.

 

[8]Robert Rothman, Jean B. Slattery, and Jennifer L. Vranek. Benchmarking and Alignment of Standards and Testing. CSE Technical Report 566.2002.

 

[9]Council of Chief State School Officers. Models for Alignment Analysis and Assistance to States.ERIC.2002.

 

[10]Webb N L. Alignment of Science and Mathematics Standards and Assessments in Four States. Washington, DC: Council of Chief State School Officers.1999.

 

作者简介:崔允,华东师范大学课程与教学研究所教授;夏雪梅,华东师范大学课程与教学研究所博士生。

 

(原载:《课程·教材·教法》2007年第1期)

相关阅读

评 论
已有条评论
    
    验证码:  验证码  

© 版权所有 人民教育出版社      京ICP备05019902号      新出网证(京)字016      京公网安备110402440009号