Optimal calibration in achievement tests

Optimal calibration of questions in computerized achievement tests

Research project

The Swedish Research Council (Vetenskapsrådet) funded this research project during the years 2020 - 2023 with 5.07 million SEK. Project members, all from Stockholm University:

Jonas Bjermo, Dept. of Statistics,
Ellinor Fackle-Fornius, Dept. of Statistics,
Frank Miller, Dept. of Statistics, main applicant,
Astrid Pettersson, Dept. of Mathematics and Science Education,
Samuel Sollerman, Dept. of Mathematics and Science Education,
Mahmood Ul Hassan, Dept. of Statistics.

Abstract

Achievement tests to evaluate abilities of examinees become increasingly important and are used by decision makers. Several large tests are repeated periodically, e.g. the Swedish Scholastic Aptitude Test, national tests in school, and international tests PISA and TIMSS.

Questions (also called items) are usually pretested for future use. In this pretesting, item calibration is done which means determination of item characteristics like difficulty. The pretested items are collated into an item bank which facilitates construction of tests with a predefined difficulty and ensures test comparability over time.

Development towards computerized achievement tests is obvious. For a computerized test, we can select items specifically for each individual based on the examinee’s ability. We want to do this selection to obtain the best possible information for item calibration.

In this project, we will

develop statistical methods for efficient item calibration,
develop software which we will make freely available,
implement the methods in the context of the Swedish national test.

Implementation will be done in close collaboration with the PRIM-group at Stockholm University responsible for the Swedish national test in mathematics.

In the project team, two senior statistical researchers and two PhD students in Statistics will work together with experienced researchers from the PRIM-group.

This research project aims to improve item calibration which increases quality for future achievement tests.

Popular science description (in Swedish)

Betydelsen av kunskapsprov som ett sätt att mäta individers kunskaper ökar i samhället. Resultaten presenteras och debatteras i ökande omfattning i media och används som underlag av beslutsfattare. Flera stora kunskapsprov genomförs kontinuerligt, såsom högskoleprovet och de nationella proven i skolan samt de internationella kunskapsmätningarna PISA och TIMSS. Utvecklingen går nu ifrån traditionella prov (på papper) mot datorbaserade prov. Exempelvis är PISA redan digitaliserat och TIMSS genomförs på dator från och med år 2019 medan arbetet med att digitalisera de nationella proven i skolan är pågående och planeras vara genomfört läsåret 2022/2023.

Vid konstruktionen av ett kunskapsprov väljs de uppgifter som ska ingå ut enligt metoder för att säkerställa en hög validitet och reliabilitet. Innan en uppgift kan bli aktuell för att ingå i ett prov behöver den utprövas och egenskaper såsom svårighetsgrad bestämmas. Med tillgång till en uppgiftsbank av noggrant utprövade uppgifter kan provkonstruktionen göras effektivare och säkrare, det är lättare att konstruera prov som har en given svårighetsnivå samt att göra proven jämförbara över tiden. För de storskaliga kunskapsmätningarna är processen för utprövning av uppgifter särskilt tidskrävande och kostsam.

Forskningsprojektet syftar till att komplettera utprövningsprocessen med mer information. Detta kan leda till en effektivisering av processen genom att

utveckla nya statistiska metoder som drar nytta av de speciella förutsättningar som digitaliseringen skapar,
skapa fritt tillgänglig mjukvara för att underlätta framtida användning och spridning av metodiken,
implementera och förfina metoderna i samband med digitaliseringen av de nationella proven i matematik i samarbete med PRIM-gruppen (vid Institutionen för matematikämnets och naturvetenskapsämnenas didaktik, Stockholms universitet).

Forskningen i projektet kombinerar teorier från optimal design med idéer från testteori. Utprövningsuppgifterna matchas med provtagarnas förmåga och administreras efterhand. För detta krävs dels en uppskattning av provtagarens förmåga dels en förhandsuppfattning om uppgifternas egenskaper/parametrar vilket i båda fallen är förenat med viss osäkerhet. Detta projekt kommer att utveckla metoder som hanterar denna osäkerhet och samtidigt uppskattar uppgifternas egenskaper med en högre precision. Det innebär en ökad kostnadseffektivitet då det räcker med ett mindre antal utprövningar för att uppnå samma information om en uppgift.

Den ökade precisionen kommer att kvantifieras genom jämförelser med nuvarande metod (som inte använder provtagarens förmåga), dels genom teoretiska beräkningar dels genom att testa de två metoderna parallellt vid implementeringen till de nationella proven. De klasser som deltar randomiseras till en av metoderna. Med jämförelsen kan vi undersöka vilka delar av utprövningsprocessen som blir mer effektiva.

Den i projektet planerade förbättringen av utprövningsprocessen leder i förlängningen dessutom till en högre kvalitet i framtida kunskapsprov, vilket är till stor nytta för den enskilde provtagaren såväl som för samhället i stort.

Publications from the project members related to the project

Bjermo J (2021).
Test design for mean ability growth and optimal item calibration for achievement tests. PhD thesis. Stockholm University.
Ul Hassan M, Miller F (2021).
An exchange algorithm for optimal calibration of items in computerized achievement tests.
Computational Statistics and Data Analysis, 157: 107177.
Ul Hassan M (2019).
Achievement tests and optimal design for pretesting of questions. PhD thesis. Stockholm University.
Ul Hassan M, Miller F (2019).
Optimal item calibration for computerized achievement tests.
Psychometrika, 84, 1101-1128.