Psicometria · 14 min lectura

¿Que hace que un test de evaluacion sea valido y fiable?

No todas las evaluaciones son iguales. Conozca la diferencia entre pruebas validas e invalidas, y por que es crucial para su contratacion.

Door Ingmar van Maurik · Founder & CEO, Making Moves


Por que importa

Una evaluacion solo es valiosa si mide lo que afirma medir y ofrece resultados consistentes. Suena logico, pero la realidad es que muchas empresas utilizan evaluaciones sin saber si realmente predicen el rendimiento laboral.

La consecuencia: decisiones de contratacion basadas en ruido. Piensa que contrata de forma basada en datos, pero en realidad utiliza un instrumento que no predice mejor que lanzar una moneda, y a veces incluso peor, porque crea una falsa sensacion de certeza.

En este articulo explicamos que significan realmente la validez y la fiabilidad, como medirlas y por que las evaluaciones genericas a menudo se quedan cortas. Tambien mostramos como puede construir evaluaciones con su propio sistema que realmente predigan quien tendra exito.

Validez: ¿esta midiendo lo que quiere medir?

La validez es la base de toda evaluacion. Responde a la pregunta: ¿este test realmente predice el rendimiento laboral? Hay multiples formas de validez, cada una con una funcion especifica.

Validez predictiva

Este es el estandar de oro en la psicometria de evaluaciones. Se comparan las puntuaciones del test con el rendimiento real posterior:

  • ¿Los candidatos con puntuaciones altas tambien obtienen buenas evaluaciones de desempeño a los 6 y 12 meses?
  • ¿Existen correlaciones entre componentes especificos del test y el exito en el puesto?
  • ¿Las puntuaciones predicen la retencion, es decir, los candidatos con puntuaciones altas permanecen mas tiempo?
  • La validez predictiva se expresa como un coeficiente de correlacion (r). En psicometria, se aplican estos benchmarks:

    Coeficiente de correlacionInterpretacion

    |---------------------------|---------------|

    r < 0,10Insignificante, el test no predice nada r = 0,10-0,20Debil, valor limitado r = 0,20-0,30Moderado, cierto valor predictivo r = 0,30-0,50Fuerte, buen predictor r > 0,50Muy fuerte, excelente predictor

    Los mejores tests cognitivos genericos alcanzan una r de 0,30-0,50. Pero las evaluaciones especificas de la empresa pueden puntuar significativamente mas alto porque estan calibradas a lo que significa el exito en su contexto especifico.

    Validez de constructo

    ¿Mide el test el constructo correcto? Suena simple pero es complejo en la practica:

  • Un test de "capacidad analitica" debe medir realmente capacidad analitica, no competencia lectora o memoria de trabajo
  • Un test de personalidad que mide "liderazgo" debe distinguirse de dominancia y asertividad, constructos relacionados pero diferentes
  • Un test de "encaje cultural" debe medir lo que afirma, no simplemente formalizar el sesgo de similitud
  • La validez de constructo se mide mediante:

  • Validez convergente, ¿correlaciona el test con otros tests validados que miden el mismo constructo?
  • Validez divergente, ¿no correlaciona el test con tests que miden un constructo diferente?
  • Analisis factorial, ¿los items del test cargan en los factores esperados?
  • Validez de criterio

    ¿Que tan bien predice el test un criterio especifico? Este puede ser:

  • Productividad, volumen y calidad del trabajo
  • Retencion, ¿permanece el empleado al menos 12-18 meses?
  • Satisfaccion del cliente, puntuaciones de clientes que trabajan con el empleado
  • Velocidad de crecimiento, ¿con que rapidez se desarrolla el empleado al siguiente nivel?
  • Eficacia del equipo, ¿contribuye el empleado positivamente al equipo?
  • Es importante reconocer que diferentes criterios requieren diferentes predictores. Un test que predice la productividad no predice automaticamente la retencion.

    Validez de contenido

    ¿Cubre el test contenido relevante para el puesto? Una evaluacion para un desarrollador de software debe evaluar:

  • Resolucion de problemas en un contexto tecnico
  • Habilidades de revision de codigo
  • Colaboracion en equipos de desarrollo
  • Manejo de la ambiguedad y requisitos cambiantes
  • No: inteligencia verbal general o reconocimiento de patrones abstractos sin relacion con las actividades laborales diarias.

    Fiabilidad: ¿es consistente?

    La fiabilidad plantea la pregunta: ¿produce el test resultados comparables en administraciones repetidas? Un test no puede ser valido sin ser fiable, pero un test fiable no es automaticamente valido.

    Fiabilidad test-retest

    ¿Obtiene la misma persona puntuaciones similares al realizar el test en dos momentos diferentes? Esto se mide con la correlacion test-retest:

  • r > 0,80, buena fiabilidad test-retest
  • r = 0,60-0,80, aceptable para algunos constructos
  • r < 0,60, insuficiente, el test mide demasiado ruido
  • Importante: algunos constructos son inherentemente menos estables (por ejemplo, estado de animo frente a personalidad), lo que afecta la fiabilidad test-retest esperada.

    Consistencia interna

    ¿Miden todas las preguntas dentro de una seccion el mismo constructo? Esto se mide con el alfa de Cronbach:

  • α > 0,80, bueno
  • α = 0,70-0,80, aceptable
  • α < 0,70, las preguntas no miden consistentemente lo mismo
  • Una consistencia interna baja significa que algunas preguntas miden algo diferente al resto, haciendo la puntuacion total poco fiable.

    Fiabilidad entre evaluadores

    Para evaluaciones que requieren juicio humano (por ejemplo, simulaciones, presentaciones, entrevistas): ¿llegan diferentes evaluadores a la misma conclusion? Esto es critico para:

  • Centros de evaluacion
  • Entrevistas estructuradas
  • Muestras de trabajo
  • Evaluaciones de video con puntuacion humana
  • La solucion para la baja fiabilidad entre evaluadores: rubricas de puntuacion estructuradas y formacion de evaluadores. O mejor aun: utilice puntuacion con AI donde sea posible, que es inherentemente consistente.

    Por que los tests genericos a menudo se quedan cortos

    La mayoria de las evaluaciones comerciales, de proveedores como SHL, Harver, TestGorilla y Saville, estan validadas en poblaciones genericas. Esto significa:

    El problema del grupo normativo

    Las puntuaciones se comparan con miles de personas aleatorias de diversas industrias y puestos. Pero:

  • Lo que predice el exito en un banco es fundamentalmente diferente de una startup tecnologica
  • Un grupo normativo de 10.000 profesionales aleatorios no es relevante para su puesto especifico de desarrollador senior
  • El contexto cultural de una empresa neerlandesa difiere de un grupo normativo estadounidense
  • El problema del modelo estatico

    Los tests genericos se actualizan cada 5-10 años. Su empresa cambia continuamente:

  • Nuevas tecnologias, procesos y cultura
  • Dinamicas de equipo y estilos de liderazgo cambiantes
  • Evolucion de lo que "exito" significa en un puesto
  • Un test validado en 2020 podria ya no medir lo que es relevante en 2026.

    El problema del enfoque unico

    El mismo test de personalidad se utiliza para desarrolladores, directores comerciales, analistas financieros y representantes de atencion al cliente. Pero las competencias que predicen el exito son fundamentalmente diferentes por puesto.

    Lea mas en nuestro articulo sobre por que las evaluaciones genericas no funcionan.

    La solucion: validacion especifica de la empresa

    Con su propio sistema de evaluacion, puede abordar las deficiencias de los tests genericos:

    Construir sus propios grupos normativos

    En lugar de comparar puntuaciones con una poblacion generica, construya grupos normativos por puesto y departamento:

  • Sus desarrolladores senior se comparan con sus desarrolladores senior, no con el mercado
  • Las puntuaciones de su equipo de ventas se comparan con sus mejores empleados, no con un grupo normativo de ventas generico
  • Las nuevas contrataciones se comparan con empleados que ya tienen exito en el mismo puesto
  • Calcular la validez predictiva con sus propios datos

    Esta es la prueba definitiva: ¿sus evaluaciones realmente predicen el exito? Con sus propios datos, puede:

  • Correlacionar puntuaciones de evaluacion con evaluaciones de desempeño (6, 12, 18 meses)
  • Identificar que componentes del test son mas predictivos para que puestos
  • Ajustar pesos para que los componentes mas predictivos tengan mayor importancia
  • Establecer un [ciclo de validacion continua](/es/articulos/continuous-validation-hiring) que haga el modelo cada vez mas preciso
  • Calibracion continua despues de cada contratacion

    Despues de cada contratacion, el modelo se valida:

    1. El candidato puntua en la evaluacion

    2. El candidato es contratado (o rechazado)

    3. A los 6 meses: evaluacion de desempeño

    4. Calcular correlacion: ¿fue correcta la prediccion?

    5. Ajustar el modelo en funcion de los resultados

    Esto significa que su sistema de evaluacion se vuelve mas inteligente con el tiempo, una ventaja que los tests genericos no pueden ofrecer por definicion.

    Analisis de sesgos en su propia poblacion

    Con sus propios datos, puede monitorizar activamente:

  • ¿Se puntua sistematicamente mas alto o mas bajo a ciertos grupos?
  • ¿Hay componentes con impacto adverso que necesiten ajuste?
  • ¿Es el test igualmente predictivo para todos los subgrupos?
  • La diferencia en la practica

    AspectoEvaluacion genericaEvaluacion especifica de empresa

    |---------|--------------------|---------------------------------|

    Grupo normativo10.000+ aleatoriosSus empleados por puesto Validez predictivar = 0,20-0,40r = 0,40-0,60+ ActualizacionesCada 5-10 añosContinuas Monitoreo de sesgosProveedor (generico)Usted (especifico a su poblacion) Coste por candidato50-200 €Incluido en el sistema Propiedad de datosProveedorUsted

    Conclusiones clave

    Una evaluacion sin validacion es una apuesta costosa. Le da la apariencia de objetividad, pero en realidad basa decisiones en suposiciones no probadas. Una evaluacion personalizada validada, por el contrario, es un arma estrategica en su contratacion.

    Los puntos clave:

  • La validez trata de si mide lo que quiere medir y si predice el rendimiento laboral
  • La fiabilidad trata de la consistencia, ¿obtiene los mismos resultados en administraciones repetidas?
  • Los tests genericos se quedan cortos por grupos normativos genericos, modelos estaticos y enfoque unico
  • La validacion especifica de empresa resuelve estos problemas con sus propios grupos normativos, calibracion continua y validez predictiva con sus datos
  • ¿Desea saber cuan validas son sus evaluaciones actuales? ¿O quiere un sistema que aprende y mejora continuamente? Contactenos o vea como nuestro sistema de contratacion con AI integra la validacion de evaluaciones en el proceso.


    Reservar una llamada · Ver nuestro sistema AI Hiring