Psychometrie · 14 min Lesezeit

Was macht einen Assessment-Test valide und reliabel?

Nicht alle Assessments sind gleich. Lernen Sie den Unterschied zwischen validen und invaliden Tests, und warum das für Ihr Hiring entscheidend ist.

Door Ingmar van Maurik · Founder & CEO, Making Moves


Warum es wichtig ist

Ein Assessment ist nur dann wertvoll, wenn es misst, was es zu messen verspricht und konsistente Ergebnisse liefert. Klingt logisch, aber die Realität ist, dass viele Unternehmen Assessments einsetzen, ohne zu wissen, ob sie tatsächlich Arbeitsleistung vorhersagen.

Die Folge: Hiring-Entscheidungen basierend auf Rauschen. Sie denken, Sie stellen datengesteuert ein, aber in Wirklichkeit verwenden Sie ein Instrument, das nicht besser vorhersagt als ein Münzwurf, und manchmal sogar schlechter, weil es ein falsches Gefühl von Sicherheit erzeugt.

In diesem Artikel erklären wir, was Validität und Reliabilität genau bedeuten, wie Sie sie messen, und warum generische Assessments oft zu kurz greifen. Wir zeigen auch, wie Sie mit einem eigenen System Assessments aufbauen können, die tatsächlich vorhersagen, wer erfolgreich wird.

Validität: Messen Sie, was Sie messen wollen?

Validität ist das Fundament jedes Assessments. Sie beantwortet die Frage: Sagt dieser Test tatsächlich Arbeitsleistung voraus? Es gibt mehrere Formen der Validität, jede mit einer spezifischen Funktion.

Prädiktive Validität

Dies ist der Goldstandard in der Assessment-Psychometrie. Sie vergleichen Testergebnisse mit späteren Leistungen in der Praxis:

  • Erzielen Kandidaten mit hohen Scores auch hohe Werte bei Leistungsbeurteilungen nach 6 und 12 Monaten?
  • Gibt es Korrelationen zwischen spezifischen Testkomponenten und Rollenerfolg?
  • Sagen die Scores Verbleib voraus, bleiben hoch bewertete Kandidaten länger?
  • Prädiktive Validität wird als Korrelationskoeffizient (r) ausgedrückt. In der Psychometrie gelten diese Benchmarks:

    KorrelationskoeffizientInterpretation

    |------------------------|---------------|

    r < 0,10Vernachlässigbar, der Test sagt nichts voraus r = 0,10-0,20Schwach, begrenzter Wert r = 0,20-0,30Mäßig, gewisser Vorhersagewert r = 0,30-0,50Stark, guter Prädiktor r > 0,50Sehr stark, exzellenter Prädiktor

    Die besten generischen kognitiven Tests erreichen ein r von 0,30-0,50. Aber unternehmensspezifische Assessments können deutlich höher abschneiden, weil sie auf das kalibriert sind, was Erfolg in Ihrem spezifischen Kontext bedeutet.

    Konstruktvalidität

    Misst der Test das richtige Konstrukt? Das klingt einfach, ist aber in der Praxis komplex:

  • Ein Test für "analytische Fähigkeiten" sollte tatsächlich analytische Fähigkeiten messen, nicht Lesekompetenz oder Arbeitsgedächtnis
  • Ein Persönlichkeitstest, der "Führung" misst, sollte von Dominanz und Durchsetzungsvermögen unterscheiden, verwandte, aber unterschiedliche Konstrukte
  • Ein Test für "Cultural Fit" sollte messen, was er vorgibt, nicht einfach Ähnlichkeits-Bias formalisieren
  • Konstruktvalidität wird gemessen durch:

  • Konvergente Validität, korreliert der Test mit anderen validierten Tests, die dasselbe Konstrukt messen?
  • Divergente Validität, korreliert der Test nicht mit Tests, die ein anderes Konstrukt messen?
  • Faktorenanalyse, laden die Testitems auf den erwarteten Faktoren?
  • Kriteriumsvalidität

    Wie gut sagt der Test ein spezifisches Kriterium voraus? Das kann sein:

  • Produktivität, Output und Arbeitsqualität
  • Verbleib, bleibt der Mitarbeiter mindestens 12-18 Monate?
  • Kundenzufriedenheit, Bewertungen von Kunden, die mit dem Mitarbeiter arbeiten
  • Entwicklungsgeschwindigkeit, wie schnell entwickelt sich der Mitarbeiter zur nächsten Stufe?
  • Teameffektivität, trägt der Mitarbeiter positiv zum Team bei?
  • Es ist wichtig zu erkennen, dass verschiedene Kriterien unterschiedliche Prädiktoren erfordern. Ein Test, der Produktivität vorhersagt, sagt nicht automatisch Verbleib voraus.

    Inhaltsvalidität

    Deckt der Test relevante Inhalte für die Rolle ab? Ein Assessment für einen Softwareentwickler sollte testen:

  • Problemlösung in einem technischen Kontext
  • Code-Review-Fähigkeiten
  • Zusammenarbeit in Entwicklungsteams
  • Umgang mit Ambiguität und sich ändernden Anforderungen
  • Nicht: allgemeine verbale Intelligenz oder abstrakte Mustererkennung, die keinen Bezug zu den täglichen Arbeitsaktivitäten hat.

    Reliabilität: Ist es konsistent?

    Reliabilität stellt die Frage: Liefert der Test vergleichbare Ergebnisse bei wiederholter Durchführung? Ein Test kann nicht valide sein, ohne reliabel zu sein, aber ein reliabler Test ist nicht automatisch valide.

    Test-Retest-Reliabilität

    Erzielt dieselbe Person ähnliche Ergebnisse, wenn sie den Test zu zwei verschiedenen Zeitpunkten absolviert? Dies wird mit der Test-Retest-Korrelation gemessen:

  • r > 0,80, gute Test-Retest-Reliabilität
  • r = 0,60-0,80, akzeptabel für einige Konstrukte
  • r < 0,60, unzureichend, der Test misst zu viel Rauschen
  • Wichtig: Einige Konstrukte sind von Natur aus weniger stabil (z. B. Stimmung vs. Persönlichkeit), was die erwartete Test-Retest-Reliabilität beeinflusst.

    Interne Konsistenz

    Messen alle Fragen innerhalb eines Abschnitts dasselbe Konstrukt? Dies wird mit Cronbachs Alpha gemessen:

  • α > 0,80, gut
  • α = 0,70-0,80, akzeptabel
  • α < 0,70, die Fragen messen nicht konsistent dasselbe
  • Niedrige interne Konsistenz bedeutet, dass einige Fragen etwas anderes messen als der Rest, was den Gesamtscore unzuverlässig macht.

    Inter-Rater-Reliabilität

    Für Assessments, die menschliches Urteil erfordern (z. B. Simulationen, Präsentationen, Interviews): Kommen verschiedene Bewerter zum selben Ergebnis? Dies ist kritisch für:

  • Assessment Center
  • Strukturierte Interviews
  • Arbeitsproben
  • Video-Assessments mit menschlicher Bewertung
  • Die Lösung für niedrige Inter-Rater-Reliabilität: strukturierte Bewertungsraster und Bewerter-Training. Oder noch besser: Setzen Sie AI-Scoring ein, wo möglich, das ist von Natur aus konsistent.

    Warum generische Tests oft zu kurz greifen

    Die meisten kommerziellen Assessments, von Anbietern wie SHL, Harver, TestGorilla und Saville, sind an generischen Populationen validiert. Das bedeutet:

    Das Normgruppen-Problem

    Scores werden mit Tausenden zufälligen Personen aus verschiedenen Branchen und Rollen verglichen. Aber:

  • Was Erfolg bei einer Bank vorhersagt, unterscheidet sich fundamental von einem Tech-Startup
  • Eine Normgruppe von 10.000 zufälligen Fachkräften ist nicht relevant für Ihre spezifische Senior-Developer-Rolle
  • Der kulturelle Kontext eines deutschen Unternehmens unterscheidet sich von einer amerikanischen Normgruppe
  • Das Problem statischer Modelle

    Generische Tests werden alle 5-10 Jahre aktualisiert. Ihr Unternehmen verändert sich kontinuierlich:

  • Neue Technologien, Prozesse und Kultur
  • Sich ändernde Teamdynamiken und Führungsstile
  • Evolution dessen, was "Erfolg" in einer Rolle bedeutet
  • Ein Test, der 2020 validiert wurde, misst 2026 möglicherweise nicht mehr, was relevant ist.

    Das One-Size-Fits-All-Problem

    Derselbe Persönlichkeitstest wird für Developer, Sales Manager, Finance Analysts und Kundenservice-Mitarbeiter verwendet. Aber die Kompetenzen, die Erfolg vorhersagen, sind fundamental unterschiedlich pro Rolle.

    Lesen Sie mehr in unserem Artikel über warum generische Assessments nicht funktionieren.

    Die Lösung: Unternehmensspezifische Validierung

    Mit Ihrem eigenen Assessment-System können Sie die Schwächen generischer Tests adressieren:

    Eigene Normgruppen aufbauen

    Statt Scores mit einer generischen Population zu vergleichen, bauen Sie Normgruppen pro Rolle und Abteilung auf:

  • Ihre Senior Developer werden mit Ihren Senior Developern verglichen, nicht mit dem Markt
  • Die Scores Ihres Sales-Teams werden gegen Ihre Top-Performer benchmarkt, nicht gegen eine generische Sales-Normgruppe
  • Neue Mitarbeiter werden mit Mitarbeitern verglichen, die bereits in derselben Rolle erfolgreich sind
  • Prädiktive Validität mit eigenen Daten berechnen

    Dies ist der ultimative Test: Sagen Ihre Assessments tatsächlich Erfolg voraus? Mit eigenen Daten können Sie:

  • Assessment-Scores mit Leistungsbeurteilungen korrelieren (6, 12, 18 Monate)
  • Identifizieren, welche Testkomponenten für welche Rollen am prädiktivsten sind
  • Gewichtungen anpassen, sodass die prädiktivsten Komponenten mehr Gewicht erhalten
  • Einen [kontinuierlichen Validierungszyklus](/de/artikelen/continuous-validation-hiring) einrichten, der das Modell immer genauer macht
  • Kontinuierliche Kalibrierung nach jeder Einstellung

    Nach jeder Einstellung wird das Modell validiert:

    1. Kandidat absolviert das Assessment

    2. Kandidat wird eingestellt (oder abgelehnt)

    3. Nach 6 Monaten: Leistungsbeurteilung

    4. Korrelation berechnen: War die Vorhersage korrekt?

    5. Modell basierend auf den Ergebnissen anpassen

    Das bedeutet, Ihr Assessment-System wird mit der Zeit immer intelligenter, ein Vorteil, den generische Tests per Definition nicht bieten können.

    Bias-Analysen an der eigenen Population

    Mit eigenen Daten können Sie aktiv überwachen:

  • Werden bestimmte Gruppen systematisch höher oder niedriger bewertet?
  • Gibt es Komponenten mit Adverse Impact, die angepasst werden müssen?
  • Ist der Test gleichermaßen prädiktiv für alle Untergruppen?
  • Der Unterschied in der Praxis

    AspektGenerisches AssessmentUnternehmensspezifisches Assessment

    |--------|----------------------|-----------------------------------|

    Normgruppe10.000+ zufälligIhre Mitarbeiter pro Rolle Prädiktive Validitätr = 0,20-0,40r = 0,40-0,60+ AktualisierungAlle 5-10 JahreKontinuierlich Bias-MonitoringAnbieter (generisch)Sie (spezifisch für Ihre Population) Kosten pro Kandidat€50-€200Im System enthalten DateneigentumAnbieterSie

    Wichtigste Erkenntnisse

    Ein Assessment ohne Validierung ist eine teure Wette. Sie verleihen ihm den Anschein von Objektivität, aber in Wirklichkeit treffen Sie Entscheidungen auf Basis unbewiesener Annahmen. Ein validiertes, maßgeschneidertes Assessment hingegen ist eine strategische Waffe in Ihrem Hiring.

    Die Kernpunkte:

  • Validität betrifft die Frage, ob Sie messen, was Sie messen wollen, und ob es Arbeitsleistung vorhersagt
  • Reliabilität betrifft Konsistenz, erhalten Sie bei wiederholter Durchführung dieselben Ergebnisse?
  • Generische Tests greifen zu kurz aufgrund generischer Normgruppen, statischer Modelle und eines One-Size-Fits-All-Ansatzes
  • Unternehmensspezifische Validierung löst diese Probleme mit eigenen Normgruppen, kontinuierlicher Kalibrierung und prädiktiver Validität auf Ihren Daten
  • Möchten Sie wissen, wie valide Ihre aktuellen Assessments sind? Oder möchten Sie ein System, das kontinuierlich lernt und sich verbessert? Nehmen Sie Kontakt auf oder sehen Sie, wie unser AI-Hiring-System Assessment-Validierung in den Prozess einbaut.


    Erstgespräch vereinbaren · Unser AI Hiring System ansehen