Statistische waarden
  • 21 Feb 2024
  • Pdf

Statistische waarden

  • Pdf

Article Summary

Dit artikel bevat een aantal statistische waarden die gebruikt worden op de Analyse-pagina. Kijk hiervoor ook in het artikel Analyse.

Dit artikel bevat een beschrijving van een aantal statistische waarden die op verschillende plekken in RemindoToets terugkomen. Deze waarden geven informatie over de kwaliteit van afgenomen items, de toets(matrijs) als geheel en over de scores van kandidaatgroepen.

Itemniveau

P′-waarde

De P′-waarde (spreek uit: P-accent-waarde) geeft weer hoe de gemiddeld behaalde score zich verhoudt tot de maximaal haalbare score, en is hierdoor een indicatie van de moeilijkheidsgraad van een item. Een lage P′-waarde geeft aan dat op dit item slecht is gescoord; mogelijk is het item te moeilijk of niet relevant voor de toets. Een hoge P′-waarde geeft aan dat op dit item goed is gescoord; mogelijk is het item te makkelijk. De P′-waarde ligt tussen 0 en 1. Het is mogelijk om in de afname-omgeving via Instellingen > Beheer algemene instellingen > Vraaganalyse notificatie-instellingen aan te geven bij welke waarden een waarschuwing afgegeven moet worden.

De P’-waarde van een vraag is te vinden in de beheeromgeving via Vragen > tabblad Statistieken . In de afname-omgeving is het te vinden onder Resultaten > Analyses > tabblad Details van het resultaat en tabblad Analyseer vragen.

Voorbeeld

Voor een item met een maximaal te behalen score van 10 behalen de kandidaten scores van 5.5, 7, 9.5, 6.5 en 3. De P′-waarde is dan 0.63 = ((5.5+7+9.5+6.5+3)/5) / 10.

Let op!

RemindoToets toont enkel de P′-waarde, en niet de P-waarde, die het percentage correcte antwoorden weergeeft. De P-waarde werkt alleen voor dichotome vragen waarbij een antwoord óf fout óf goed is. De P′-waarde geeft de proportie goed van de vraag aan en geeft zo een genuanceerder beeld dan de P-waarde.


Rit-/Rir-waarde

De Rit-waarde (“Rit” voor Relatie Item Toets) geeft de correlatie (samenhang) weer tussen de scores op dit item en de scores op alle items (van de toets als geheel). Een lage Rit-waarde duidt erop, dat scores op dit item niet samenhangen met scores op de toets als geheel; mogelijk hoort dit item niet binnen deze toets. Hoe hoger echter de Rit-waarde, hoe beter het item past binnen de toets, en hoe kwalitatiever de toets als geheel. De Rit-waarde ligt tussen -1 en 1. De Rit-waarde heeft als nadeel dat het betreffende item zelf ook voorkomt in alle items, en daardoor correleert deze met zichzelf. Dit effect wordt groter naarmate de toets minder items bevat.

Om dit probleem uit de weg te gaan wordt ook wel gebruik gemaakt van de Rir-waarde (“Rir” voor Relatie Item Rest), waarbij de correlatie wordt berekend a.d.h.v. de scores op dit item met de scores op de overige items binnen de toets. Doordat hierbij de correlatie van het item met zichzelf wegvalt (deze is altijd 1), is de Rir-waarde nooit hoger dan de Rit-waarde.

De Rit- en Rir-waarden van een vraag zijn te vinden in de beheeromgeving: Vragen > tabblad Statistieken. In de afname-omgeving zijn ze te vinden onder Resultaten > Analyses > tabblad Details van het resultaat en tabblad Analyseer vragen.


A-waarde

De A-waarde (“A” voor afleider) is het percentage kandidaten dat deze afleider heeft gekozen. De A-waarde ligt tussen 0 en 1. De som van alle A-waarden is altijd 1. Indien dit item bestaat uit één interactie met één correcte afleider, dan is de A-waarde van deze correcte afleider gelijk aan de P-waarde van het item (niet de P′-waarde). Aangezien afleiders alleen gedefinieerd zijn voor interacties, en niet voor items, zijn A-waarden daarom ook alleen gedefinieerd voor interacties.

De A-waarde van een vraag is te vinden in de beheeromgeving: Vragen > tabblad Statistieken.


Rat-/Rar-waarde

De Rat- en Rar-waarden (“a” voor afleider) zijn verwant aan de Rit- en Rir-waarden (“i” voor item), maar werken niet op itemniveau, maar op afleider-niveau. Aan deze waarden valt te zien in hoeverre de keuze voor een bepaalde afleider correleert met de kandidaatscore voor de toets als geheel. Als de Rat- of Rar-waarde voor een incorrecte afleider hoger is dan de waarde voor een correcte afleider, dan kan het zijn dat de afleider toch correct is, of dat het een strikvraag betreft.

De Rat- en Rar-waarden van een vraag zijn te vinden in de beheeromgeving: Vragen > tabblad Statistieken.


Gemiddelde (µ)

Dit is het gemiddelde van alle scores van kandidaten op een item.
Het gemiddelde van een vraag is te vinden in de afname-omgeving onder Resultaten > Analyses > tabblad Analyseer vragen.

Standaardafwijking (σ)

De standaardafwijking, getoond als STDEV (Engels: STandard DEViation), geeft weer hoe ver de behaalde scores van kandidaten op een vraag uiteen liggen. Hoe kleiner de standaardafwijking, hoe dichter de scores bij elkaar liggen. Bij een standaardafwijking van 0 heeft iedere kandidaat dezelfde score behaald. Een grote standaardafwijking duidt op een grote scheiding tussen goede en slechte scores, en dus een sterk onderscheidend vermogen. Verder geldt hoe hoger de maximaal haalbare score van een item, hoe hoger ook de standaardafwijking kan zijn. De standaardafwijking is minimaal 0.

De standaardafwijking van een vraag is te vinden in de afname-omgeving onder Resultaten > Analyses > tabblad Details van het resultaat en tabblad Analyseer vragen.


Toetsniveau

Cronbachs alfa / betrouwbaarheid

Cronbachs alfa is een maat voor de interne correlatie tussen scores op items, en kan gezien worden als een Rir-waarde op toetsniveau. De minimale waarde van Chronbachs alfa kan kleiner zijn dan 0 (in feite zelfs minus oneindig), de maximale waarde van Chronbachs alfa is 1, Cronbachs alfa geeft de betrouwbaarheid van een toets weer: hoe hoger de waarde (hoe dichter bij 1), hoe betrouwbaarder. Echter, een te hoge waarde (groter dan 0.90) kan een indicatie zijn dat hetzelfde construct te vaak wordt gemeten (redundantie). Een lage waarde (lager dan 0.50) wordt gezien als onacceptabel. Cronbachs alfa ligt tussen 0 en 1.

Cronbachs alfa kan ook in de beheeromgeving voor een toetsmatrijs berekend worden (via Toetsen > [gewenste toetsmatrijs] > tabblad Statistieken op basis van de data van eerder afgenomen items. Via deze functie is het ook mogelijk om een specifieke selectie te maken voor de te analyseren vragen . Daar kan gekozen worden om specifieke toetsmomenten met deze matrijs wel of niet mee te nemen voor analyse. Er kan op basis van de betrouwbaarheid vervolgens naar wens aanpassingen gedaan worden aan de matrijs.

Let op!

In de afname-omgeving is het soms niet mogelijk om de betrouwbaarheid te berekenen. Dit komt voor wanneer een toetsmatrijs aan kandidaten verschillende vragen presenteert waardoor er niet genoeg data verzameld is voor één of meerdere vragen. Dit kan opgelost worden door de betrouwbaarheid in de beheeromgeving te berekenen en daar meer toetsafnames te selecteren.

Chronbachs alfa is te vinden in de beheeromgeving: Toetsen > tabblad Statistieken en in afname-omgeving onder Resultaten > Analyses.


Groepsanalyse

In Resultaten > Analyses > tabblad Groepsanalyse staan een aantal specifieke statistische waarden die alleen hier te vinden zijn, dit zijn:

95e percentielscore

De 95e percentielscore wordt gegeven voor de gehele toets en eventueel per onderdeel (wanneer terugkoppelingsonderdelen zijn ingesteld). Deze score geeft aan dat 95% van de scores lager is of gelijk aan deze score.

Gemiddelde raadscore

De gemiddelde raadscore is de gemiddelde raadkans (percentage) over de items omgerekend naar het aantal punten dat de student goed kan raden.

Score standaardafwijking

De score standaardafwijking geeft de spreiding van de verdeling aan – de mate waarin de scores onderling verschillen. De score standaardafwijking is te vinden door binnen de groepsanalyse kandidaatgroepen te vergelijken.

Cijfer standaardafwijking

De cijfer standaardafwijking geeft de spreiding van de verdeling aan – de mate waarin de cijfers onderling verschillen. Het cijfer standaardafwijking is te vinden door binnen de groepsanalyse kandidaatgroepen te vergelijken.