亞太科學教育論壇,第九期,第一冊,文章十七(二零零八年六月)
武荷嵐、楊友源、鄭美紅
淺談美國國家教育進步評估中的科學評估
上一頁 內容 下一頁

測量工具的設計及評估過程

「國進評」科學評估之所以能評判和比較全國各州學生的學業水準,除了在相同的評價框架指導下,使用相同的評估程式外,還因為整個評估使用了有效的評估工具:大型題庫和矩陣技術,並在不同年份的測試、不同年級的測試卷中特意安排了一些重疊的問題(Shymansky et al.,1983; Stiggins,1987; Strang, 1990),與其他類型的測試共用部分相同的樣本,使得測試結果既有縱向可比性又有橫向可比性。

下面簡要介紹「國進評」科學評估的問卷組成和題庫設計以及評估過程。

4.1 問卷組成

「國進評」科學評估量表由學生問卷(測試卷、學生背景調查問卷)、教師問卷、學校領導問卷等組成。

學生問卷分為兩部分:第一部分是有關科學學科內容的主題模組,每份問卷中通常刊載三個模組,每個主題模組包括十幾個評估框架中提到的有關認知和技能的問題。它們被隨機放置在學生問卷的小冊子堙A同一所學校的學生接到的問卷題目可能並不相同。

另一部分是有關背景資料的問題,問題包括學生的種族、父母受教育情況、家庭經濟狀況,就讀學校的類型(公立還是私立),是否接受語言輔助,有沒有享受免費午飯計畫等一些被認為對學生學習情況有影響的相關資訊。

除了學生問卷,整個評估還設置了對教師和學校管理者的問卷,和學校紀錄卡,以作為背景資料的重要來源。教師問卷、學校管理者問卷需要參與評估的學校教師、領導用幾分鐘的時間填寫自己學校情況,如:學校性質,學生種族比例,是否有殘疾學生,對殘疾學生是否有輔助以及測試完成時間等。

4.2 題庫的設計

「國進評」科學評估除了與別的測試(如州「國進評」評估)共用部分相同的樣本外,「國進評」科學評估還使用了大型題庫,例如,在2000年的總題庫中,4、8、12年級分別有143題、196題、195題。

總題庫的題目圍繞一定的主題分成一些模組,每個年級題庫中通常有15個主題模組,每個參加測試的學生只需要回答3個這樣的主題模組。這樣既可節省學生參加測試的時間,測試題目又可以包含足夠寬廣的知識。

題型包括選擇題、簡答題和問答題三種。簡答題(Short constructed-response questions )通常需要一兩個句子來回答(例如,簡單地說明為什麼盆栽植物能夠比老鼠更長時間地生存在一個密封的貨櫃堙^,問答題(extended constructed response questions)需要用一整段語句來回答(例如,概述測量金屬環密度的實驗工具和步驟)。問答題往往具有拓展性,包括幾個問題,有時答案並不唯一,有的需要圖解、圖表,或計算等。

表8:2000年和1996年的題庫中題型分佈表

年級

選擇題

簡答題

問答題

1996

2000

1996

2000

1996

2000

4年級

51

71

73

65

16

7

8年級

74

95

100

91

20

10

12年級

70

91

88

83

30

21

此外,每個參加評估的學校中有半數以上的學生必須完成一道實驗操作題。實驗操作題往往給學生一套設備,讓其進行探究,並在答題紙上回答相關的問題。例如,8年級學生有可能被要求,基於提供的有關太陽系的資料,畫出圖紙和圖表,然後回答與該主題相關的一些問題;又如給12年級的學生一瓶新的飲料,它被認為是無糖和無卡路里的,問學生該如何判斷情況是否屬實。學生需要設計實驗步驟,選取和列出需要的器材,動手實驗,記錄下實驗資料,並解釋得出結論的推理過程或依據。

「國進評」在設計題庫的時候,特意在不同年份、不同年級的測試卷中安排了一些相同或重疊(overlap)的問題,具體說明如下見表9:

a) 不同年份的測試,相同年級的試題有部分重疊。b) 相同年份的測試,不同年級的試題也有部分重疊。

表9:重疊題目的題型分佈表(1996,2000年科學測試)

選擇題

簡答題

問答題

總數目

4年級和8年級

9

16

4

29

8年級和12年級

21

26

3

50

所謂矩陣技術,就是指每個參加測評的學生只需要完成整個題庫的一小部分,最後整合在一起,通過矩陣運算就可以算出該生的總成績、所有參加測試學生的平均成績和對應的等級水準。

正是通過題庫和矩陣技術,既能評估學生對科學概念的理解、運用高層思維的能力與技巧,又使得測試結果具有縱、橫向可比性。

4.3 選樣和施測

在取樣方面,「國進評」不是完全隨機抽樣,而是在參加評估的州內根據人口統計學和地理組成進行抽樣。並且為了保證樣本的均衡性,NCES 和 NAGB規定州和地方學校的參與率不得低於85%。通常在各州4年級和8年級各選取100所學校作為樣本,再在作為樣本的學校和年級選取25名學生參加每個科目的評估[5]。2005年,有44個州30多萬名學生參加了科學評估,其中,4年級和8年級學生參與率達到85%,12年級略微低於這個數字。

測試時間方面,「國進評」制定了詳細的評估計畫表。全國評估通常與州評估和實驗性城市地區評估是隔年進行並且避免重迭,而全國長期趨勢評估則是四年一次。下次全國長期趨勢評估是2008年,但從2002年開始,停止了對科學科的長期趨勢評估。

答題時間,4年級的學生必須在20分鐘內完成一個主題模組(通常包括2-3個主題模組),實驗操作題必須在20分鐘內完成。8年級和12年級的學生分別在25分鐘和30分鐘內完成一個主題模組;一半學生需另外在30分鐘內完成一個給定的實驗操作任務,並且回答與任務有關的問題。加上回答背景問題的10分鐘,故4年級總答題時間是70分鐘,8、12年級總答題時間是100分鐘。

評估進行時,每個模組單獨計時。即當一個主題模組的時間用盡時,會有工作人員通知答題時間到,所有學生停止回答該模組,然後再進行下一個模組的答題。


Copyright (C) 2008 HKIEd APFSLT. Volume 9, Issue 1 Article 17 (Jun., 2008). All Rights Reserved.