Psychometrie · 14 min leestijd

Wat maakt een assessment test valide en betrouwbaar?

Niet alle assessments zijn gelijk. Leer het verschil tussen valide en invalide tests, en waarom dat cruciaal is voor je hiring.

Door Ingmar van Maurik · Founder & CEO, Making Moves

Waarom het ertoe doet

Een assessment is alleen waardevol als het meet wat het belooft te meten en consistent resultaten geeft. Klinkt logisch, maar de realiteit is dat veel bedrijven assessments inzetten zonder te weten of ze daadwerkelijk werkprestaties voorspellen.

Het gevolg: hiring beslissingen gebaseerd op ruis. Je denkt dat je datagedreven werft, maar in werkelijkheid gebruik je een instrument dat niet beter voorspelt dan een muntje opgooien, en soms zelfs slechter, doordat het een vals gevoel van zekerheid geeft.

In dit artikel leggen we uit wat validiteit en betrouwbaarheid precies betekenen, hoe je ze meet, en waarom generieke assessments vaak tekortschieten. We laten ook zien hoe je met een eigen systeem assessments kunt bouwen die wél voorspellen wie succesvol wordt.

Validiteit: meet je wat je wilt meten?

Validiteit is het fundament van elk assessment. Het beantwoordt de vraag: voorspelt deze test daadwerkelijk werkprestaties? Er zijn meerdere vormen van validiteit, elk met een specifieke functie.

Predictieve validiteit

Dit is de gouden standaard in assessment psychometrie. Je vergelijkt testscores met latere prestaties in de praktijk:

Scoren hoge kandidaten ook hoog op performance reviews na 6 en 12 maanden?

Zijn er correlaties tussen specifieke testonderdelen en succes in de rol?

Voorspellen de scores retentie, blijven hoog scorende kandidaten langer?

Predictieve validiteit wordt uitgedrukt als een correlatiecoëfficiënt (r). In de psychometrie gelden deze benchmarks:

CorrelatiecoëfficiëntInterpretatie

|----------------------|---------------|

r < 0.10Verwaarloosbaar, de test voorspelt niets r = 0.10-0.20Zwak, beperkte waarde r = 0.20-0.30Matig, enige voorspellende waarde r = 0.30-0.50Sterk, goede voorspeller r > 0.50Zeer sterk, uitstekende voorspeller

De beste generieke cognitieve tests bereiken een r van 0.30-0.50. Maar bedrijfsspecifieke assessments kunnen significant hoger scoren doordat ze zijn afgestemd op wat succes betekent in jouw specifieke context.

Construct validiteit

Meet de test het juiste construct? Dit klinkt eenvoudig, maar is in de praktijk complex:

Een test voor "analytisch vermogen" moet daadwerkelijk analytisch vermogen meten, niet leesvaardigheid of werkgeheugen

Een persoonlijkheidstest die "leiderschap" meet, moet onderscheiden van dominantie en assertiviteit, verwante maar verschillende constructen

Een test voor "culturele fit" moet meten wat het beweert, niet gewoon similarity bias formaliseren

Construct validiteit wordt gemeten door:

Convergente validiteit, correleert de test met andere gevalideerde tests die hetzelfde construct meten?

Divergente validiteit, correleert de test niet met tests die een ander construct meten?

Factor analyse, laden de testitems op de verwachte factoren?

Criterium validiteit

Hoe goed voorspelt de test een specifiek criterium? Dit kan zijn:

Productiviteit, output en kwaliteit van werk

Retentie, blijft de medewerker minimaal 12-18 maanden?

Klanttevredenheid, scores van klanten die met de medewerker werken

Groeisnelheid, hoe snel ontwikkelt de medewerker zich naar het volgende niveau?

Teameffectiviteit, draagt de medewerker positief bij aan het team?

Het is belangrijk om te beseffen dat verschillende criteria verschillende voorspellers vereisen. Een test die productiviteit voorspelt, voorspelt niet automatisch ook retentie.

Inhoudsvaliditeit

Dekt de test de relevante inhoud voor de functie? Een assessment voor een software developer zou moeten toetsen op:

Probleemoplossend vermogen in technische context

Code review vaardigheden

Samenwerking in development teams

Omgaan met ambiguïteit en veranderende requirements

Niet op: algemene verbale intelligentie of abstracte patronherkenning die geen relatie heeft met de dagelijkse werkzaamheden.

Betrouwbaarheid: is het consistent?

Betrouwbaarheid gaat over de vraag: levert de test bij herhaalde afname vergelijkbare resultaten? Een test kan niet valide zijn zonder betrouwbaar te zijn, maar een betrouwbare test is niet automatisch valide.

Test-hertest betrouwbaarheid

Scoort dezelfde persoon vergelijkbaar als ze de test op twee verschillende momenten doen? Dit wordt gemeten met de test-hertest correlatie:

r > 0.80, goede test-hertest betrouwbaarheid

r = 0.60-0.80, acceptabel voor sommige constructen

r < 0.60, onvoldoende, de test meet te veel ruis

Belangrijk: sommige constructen zijn van nature minder stabiel (bijv. stemming vs. persoonlijkheid), wat de verwachte test-hertest betrouwbaarheid beïnvloedt.

Interne consistentie

Meten alle vragen in een onderdeel hetzelfde construct? Dit wordt gemeten met Cronbach's alpha:

α > 0.80, goed

α = 0.70-0.80, acceptabel

α < 0.70, de vragen meten niet consistent hetzelfde

Een lage interne consistentie betekent dat sommige vragen iets anders meten dan de rest, wat de totaalscore onbetrouwbaar maakt.

Inter-beoordelaar betrouwbaarheid

Bij assessments die menselijke beoordeling vereisen (bijv. simulaties, presentaties, interviews): komen verschillende beoordelaars tot dezelfde conclusie? Dit is cruciaal voor:

Assessment centers

Gestructureerde interviews

Work samples

Video-assessments met menselijke scoring

De oplossing voor lage inter-beoordelaar betrouwbaarheid: gestructureerde scoringsrubrieken en training van beoordelaars. Of beter nog: waar mogelijk AI-scoring inzetten die inherent consistent is.

Waarom generieke tests vaak tekortschieten

De meeste commerciële assessments, van aanbieders als SHL, Harver, TestGorilla en Saville, zijn gevalideerd op generieke populaties. Dit betekent:

Het normgroep-probleem

Scores worden vergeleken met duizenden willekeurige personen uit diverse sectoren en rollen. Maar:

Wat succes voorspelt bij een bank is fundamenteel anders dan bij een tech startup

Een normgroep van 10.000 willekeurige professionals is niet relevant voor jouw specifieke senior developer rol

De culturele context van een Nederlands bedrijf verschilt van een Amerikaanse normgroep

Het statische model-probleem

Generieke tests worden om de 5-10 jaar geüpdatet. Jouw bedrijf verandert continu:

Nieuwe technologieën, processen en cultuur

Veranderende teamdynamiek en leiderschapsstijlen

Evolutie van wat "succes" betekent in een rol

Een test die in 2020 is gevalideerd, meet in 2026 mogelijk niet meer wat relevant is.

Het one-size-fits-all probleem

Dezelfde persoonlijkheidstest wordt gebruikt voor developers, sales managers, finance analisten en klantenservice medewerkers. Maar de competenties die succes voorspellen zijn fundamenteel verschillend per rol.

Meer hierover in ons artikel over waarom generieke assessments niet werken.

De oplossing: bedrijfsspecifieke validatie

Met een eigen assessment systeem kun je de tekortkomingen van generieke tests oplossen:

Eigen normgroepen opbouwen

In plaats van scores te vergelijken met een generieke populatie, bouw je normgroepen per rol en afdeling:

Je senior developers worden vergeleken met jouw senior developers, niet met de markt

De scores van je sales team worden afgezet tegen jouw top performers, niet tegen een generieke sales normgroep

Nieuwe hires worden vergeleken met medewerkers die al succesvol zijn in dezelfde rol

Predictieve validiteit berekenen met eigen data

Dit is de ultieme test: voorspellen jouw assessments daadwerkelijk succes? Met eigen data kun je:

Assessment scores correleren met performance reviews (6, 12, 18 maanden)

Identificeren welke testonderdelen het meest voorspellend zijn voor welke rollen

Gewichten aanpassen zodat de meest voorspellende onderdelen zwaarder wegen

Een [continue validatiecyclus](/artikelen/continuous-validation-hiring) opzetten die het model steeds accurater maakt

Continue kalibratie na elke hire

Na elke hire wordt het model gevalideerd:

1. Kandidaat scoort op het assessment

2. Kandidaat wordt aangenomen (of afgewezen)

3. Na 6 maanden: performance review

4. Correlatie berekenen: klopte de voorspelling?

5. Model bijstellen op basis van de resultaten

Dit betekent dat je assessment systeem slimmer wordt over tijd, een voordeel dat generieke tests per definitie niet kunnen bieden.

Bias analyses op eigen populatie

Met eigen data kun je actief monitoren:

Worden bepaalde groepen systematisch hoger of lager gescoord?

Zijn er onderdelen met adverse impact die aangepast moeten worden?

Is de test even predictief voor alle subgroepen?

Het verschil in de praktijk

AspectGeneriek assessmentBedrijfsspecifiek assessment

|--------|-------------------|---------------------------|

Normgroep10.000+ willekeurigJouw medewerkers per rol Predictieve validiteitr = 0.20-0.40r = 0.40-0.60+ ActualisatieOm de 5-10 jaarContinu Bias monitoringLeverancier (generiek)Jij (specifiek voor jouw populatie) Kosten per kandidaat€50-€200Opgenomen in systeem Data-eigendomLeverancierJij

Samenvatting

Een assessment zonder validatie is een dure gok. Je geeft het de schijn van objectiviteit, maar in werkelijkheid baseer je beslissingen op onbewezen aannames. Een gevalideerd assessment op maat is daarentegen een strategisch wapen in je hiring.

De kernpunten:

Validiteit gaat over of je meet wat je wilt meten, en of dat werkprestaties voorspelt

Betrouwbaarheid gaat over consistentie, krijg je dezelfde resultaten bij herhaalde afname?

Generieke tests schieten tekort door generieke normgroepen, statische modellen en one-size-fits-all aanpak

Bedrijfsspecifieke validatie lost deze problemen op met eigen normgroepen, continue kalibratie en predictieve validiteit op jouw data

Wil je weten hoe valide jouw huidige assessments zijn? Of wil je een systeem dat continu leert en verbetert? Neem contact op of bekijk hoe ons AI hiring systeem assessment validatie inbouwt in het proces.

Plan intake gesprek · Bekijk ons AI Hiring Systeem