Wat maakt een assessment test valide en betrouwbaar?
Niet alle assessments zijn gelijk. Leer het verschil tussen valide en invalide tests, en waarom dat cruciaal is voor je hiring.
Door Ingmar van Maurik · Founder & CEO, Making Moves
Waarom het ertoe doet
Een assessment is alleen waardevol als het meet wat het belooft te meten en consistent resultaten geeft. Klinkt logisch, maar de realiteit is dat veel bedrijven assessments inzetten zonder te weten of ze daadwerkelijk werkprestaties voorspellen.
Het gevolg: hiring beslissingen gebaseerd op ruis. Je denkt dat je datagedreven werft, maar in werkelijkheid gebruik je een instrument dat niet beter voorspelt dan een muntje opgooien — en soms zelfs slechter, doordat het een vals gevoel van zekerheid geeft.
In dit artikel leggen we uit wat validiteit en betrouwbaarheid precies betekenen, hoe je ze meet, en waarom generieke assessments vaak tekortschieten. We laten ook zien hoe je met een eigen systeem assessments kunt bouwen die wél voorspellen wie succesvol wordt.
Validiteit: meet je wat je wilt meten?
Validiteit is het fundament van elk assessment. Het beantwoordt de vraag: voorspelt deze test daadwerkelijk werkprestaties? Er zijn meerdere vormen van validiteit, elk met een specifieke functie.
Predictieve validiteit
Dit is de gouden standaard in assessment psychometrie. Je vergelijkt testscores met latere prestaties in de praktijk:
Predictieve validiteit wordt uitgedrukt als een correlatiecoëfficiënt (r). In de psychometrie gelden deze benchmarks:
|----------------------|---------------|
De beste generieke cognitieve tests bereiken een r van 0.30-0.50. Maar bedrijfsspecifieke assessments kunnen significant hoger scoren doordat ze zijn afgestemd op wat succes betekent in jouw specifieke context.
Construct validiteit
Meet de test het juiste construct? Dit klinkt eenvoudig, maar is in de praktijk complex:
Construct validiteit wordt gemeten door:
Criterium validiteit
Hoe goed voorspelt de test een specifiek criterium? Dit kan zijn:
Het is belangrijk om te beseffen dat verschillende criteria verschillende voorspellers vereisen. Een test die productiviteit voorspelt, voorspelt niet automatisch ook retentie.
Inhoudsvaliditeit
Dekt de test de relevante inhoud voor de functie? Een assessment voor een software developer zou moeten toetsen op:
Niet op: algemene verbale intelligentie of abstracte patronherkenning die geen relatie heeft met de dagelijkse werkzaamheden.
Betrouwbaarheid: is het consistent?
Betrouwbaarheid gaat over de vraag: levert de test bij herhaalde afname vergelijkbare resultaten? Een test kan niet valide zijn zonder betrouwbaar te zijn — maar een betrouwbare test is niet automatisch valide.
Test-hertest betrouwbaarheid
Scoort dezelfde persoon vergelijkbaar als ze de test op twee verschillende momenten doen? Dit wordt gemeten met de test-hertest correlatie:
Belangrijk: sommige constructen zijn van nature minder stabiel (bijv. stemming vs. persoonlijkheid), wat de verwachte test-hertest betrouwbaarheid beïnvloedt.
Interne consistentie
Meten alle vragen in een onderdeel hetzelfde construct? Dit wordt gemeten met Cronbach's alpha:
Een lage interne consistentie betekent dat sommige vragen iets anders meten dan de rest, wat de totaalscore onbetrouwbaar maakt.
Inter-beoordelaar betrouwbaarheid
Bij assessments die menselijke beoordeling vereisen (bijv. simulaties, presentaties, interviews): komen verschillende beoordelaars tot dezelfde conclusie? Dit is cruciaal voor:
De oplossing voor lage inter-beoordelaar betrouwbaarheid: gestructureerde scoringsrubrieken en training van beoordelaars. Of beter nog: waar mogelijk AI-scoring inzetten die inherent consistent is.
Waarom generieke tests vaak tekortschieten
De meeste commerciële assessments — van aanbieders als SHL, Harver, TestGorilla en Saville — zijn gevalideerd op generieke populaties. Dit betekent:
Het normgroep-probleem
Scores worden vergeleken met duizenden willekeurige personen uit diverse sectoren en rollen. Maar:
Het statische model-probleem
Generieke tests worden om de 5-10 jaar geüpdatet. Jouw bedrijf verandert continu:
Een test die in 2020 is gevalideerd, meet in 2026 mogelijk niet meer wat relevant is.
Het one-size-fits-all probleem
Dezelfde persoonlijkheidstest wordt gebruikt voor developers, sales managers, finance analisten en klantenservice medewerkers. Maar de competenties die succes voorspellen zijn fundamenteel verschillend per rol.
Meer hierover in ons artikel over waarom generieke assessments niet werken.
De oplossing: bedrijfsspecifieke validatie
Met een eigen assessment systeem kun je de tekortkomingen van generieke tests oplossen:
Eigen normgroepen opbouwen
In plaats van scores te vergelijken met een generieke populatie, bouw je normgroepen per rol en afdeling:
Predictieve validiteit berekenen met eigen data
Dit is de ultieme test: voorspellen jouw assessments daadwerkelijk succes? Met eigen data kun je:
Continue kalibratie na elke hire
Na elke hire wordt het model gevalideerd:
1. Kandidaat scoort op het assessment
2. Kandidaat wordt aangenomen (of afgewezen)
3. Na 6 maanden: performance review
4. Correlatie berekenen: klopte de voorspelling?
5. Model bijstellen op basis van de resultaten
Dit betekent dat je assessment systeem slimmer wordt over tijd — een voordeel dat generieke tests per definitie niet kunnen bieden.
Bias analyses op eigen populatie
Met eigen data kun je actief monitoren:
Het verschil in de praktijk
|--------|-------------------|---------------------------|
Samenvatting
Een assessment zonder validatie is een dure gok. Je geeft het de schijn van objectiviteit, maar in werkelijkheid baseer je beslissingen op onbewezen aannames. Een gevalideerd assessment op maat is daarentegen een strategisch wapen in je hiring.
De kernpunten:
Wil je weten hoe valide jouw huidige assessments zijn? Of wil je een systeem dat continu leert en verbetert? Neem contact op of bekijk hoe ons AI hiring systeem assessment validatie inbouwt in het proces.