FIABILIDAD TESTS, RETESTS Y VALIDEZ : FIABILIDAD TESTS, RETESTS Y VALIDEZ

FIABILIDAD

La fiabilidad se concibe como la consistencia o estabilidad de las medidas cuando el proceso de medición se repite. Por ejemplo, si las lecturas del peso de una cesta de manzanas varían mucho en sucesivas mediciones efectuadas en las mismas condiciones, se considerará que las medidas son inestables, inconsistentes y poco fiables. La carencia de precisión podría tener consecuencias indeseables en el coste de ese producto en una ocasión determinada. De esta concepción se sigue que de la variabilidad de las puntuaciones obtenidas en repeticiones de la medición puede obtenerse un indicador de la fiabilidad, consistencia o

Precisión de las medidas. Si la variabilidad de las medidas del objeto es grande, se considerará que los valores son imprecisos y, en consecuencia, poco fiables.

De manera semejante, si una persona contestase a un test repetidamente en las mismas condiciones, de la variabilidad de las puntuaciones podría obtenerse un indicador de su grado de fiabilidad. La imposibilidad de lograr que las medidas se lleven a cabo exactamente en las mismas condiciones es uno de los problemas de la medición psicológica y educativa. El nivel de atención y de motivación de una persona puede variar al contestar repetidamente a la misma prueba, la dificultad de dos tests pretendidamente iguales construidos para medir el mismo constructo puede ser desigual, las muestras de examinadores que califican un examen de selectividad pueden diferir en el grado de severidad, etc. Por tanto, el esfuerzo de los evaluadores ha de centrarse en estandarizar el procedimiento de medición para minimizar la influencia de aquellas variables extrañas que pueden producir inconsistencias no deseadas. La estandarización del procedimiento implica obtener las medidas en todas las ocasiones en condiciones muy semejantes: con el mismo tiempo de ejecución, las mismas instrucciones, similares ejemplos de práctica, tareas de contenido y dificultad equivalentes, similares criterios de calificación de los evaluadores de exámenes, etc. El estudio de la fiabilidad parte de la idea de que la puntuación observada en una prueba es un valor concreto de una variable aleatoria consistente en todas las posibles puntuaciones que podrían haber sido obtenidas por una persona en repeticiones del proceso de medida en condiciones semejantes (Haertel, 2006). Obviamente, no es posible repetir la medición un número muy grande de veces a los mismos participantes. Por tanto, la distribución de las puntuaciones es hipotética y sus propiedades deben ser estimadas indirectamente. La media de esa distribución, que reflejaría el nivel de una persona en el atributo de interés, es denominada puntuación verdadera en la Teoría Clásica de los Tests (TCT). La TCT es un conjunto articulado de procedimientos psicométricos desarrollados fundamentalmente en la primera mitad del siglo pasado, que se ha utilizado extensivamente para la construcción, análisis y aplicación de los tests psicológicos y educativos. Aunque la TCT surgió en el contexto de la medición de las aptitudes humanas, sus propuestas se extienden a otras áreas. Se asume que la puntuación verdadera de una persona no cambia entre ocasiones, por lo que la variabilidad de las puntuaciones observadas se debe a la influencia de un error de medida aleatorio, no sistemático (producido por causas desconocidas e incontrolables en esa situación). La cantidad de error en cada caso sería la diferencia entre una puntuación observada y la puntuación verdadera. La desviación típica de los errores, denominada error típico de medida (ETM), indica la precisión de las puntuaciones de una persona, es decir, su variabilidad en torno a la puntuación verdadera. El ETM refleja el error que puede esperarse en una puntuación observada. Por ejemplo, si el error pico de medida del peso de un objeto fuese de dos gramos, se puede aventurar que el peso observado diferirá del peso verdadero en más de dos gramos solo la tercera parte de las veces. Aunque la TCT permite estimar el ETM para personas situadas en distintos rangos de la variable (denominados errores típicos de medida condicionales), suele emplearse un único valor aplicable de forma general a todas las puntuaciones de las personas de una población. Obviamente, la valoración del ETM depende de la magnitud de los objetos que se están midiendo: dos gramos es un error despreciable si se pesan objetos muy pesados como sacos de cereales, pero es un error notable si se pesan objetos más livianos como los diamantes. Es decir, el valor del ETM está en las mismas unidades que los objetos medidos y carece de un límite superior estandarizado que facilite su valoración. Por ello, se ha propuesto un índice ce estandarizado de consistencia o precisión denominado coeficiente de fiabilidad que puede oscilar entre 0 y 1.De la TCT se deriva que este coeficiente es el cociente entre la varianza de las puntuaciones verdaderas y la varianza de las puntuaciones observadas en una población de personas. En consecuencia, indica la proporción de la variabilidad de las puntuaciones observadas que no puede atribuirse al error de medida; por ejemplo, si el coeficiente de fiabilidad es de 0,80, se considera que el 20% de la variabilidad observada es espuria

CARACTERÍSTICAS DE LOS TEST

Para comprender mejor este tema será mejor revisar nuestros libros de estadística ya que tres aspectos son fundamentales en la calidad de un test:

1. Validez: Un test es válido cuando mide lo que intenta medir, lo que conlleva que es válido cuando mide el objeto en la forma apropiada. Tres tipos de procedimientos han sido utilizados en la determinación de la validez de un test:

a.   Validez de Contenido: Evalúa en qué medida el test toma una muestra de conducta típica de la conducta que se pretende medir. En muchas ocasiones lo que se desarrolla como medida de un constructo es más lo que el evaluador cree que el constructo es, que lo que en realidad eso podría ser.
b.   Validez Empírica: Se refiere a la capacidad de un test de hacer predicciones acerca del desempeño de un sujeto en una situación relacionada en la conducta medida.
c.   Validez Estructural: Esta dada por la capacidad de la prueba para medir un rasgo o un constructo teórico. Ejemplo típico del uso de este criterio se encuentra en las pruebas de inteligencia. Los criterios más utilizados para establecer la validez estructural son entre otros, la diferenciación con la edad, las correlaciones del test con otros test, el análisis factorial y la consistencia interna.

2. Confiabilidad: La confiabilidad de un test se mide por la estabilidad de las puntuaciones de un individuo ante un test, repetida en varias ocasiones y en situaciones diferentes. También puede ser definida con base en el error; cuando menor sea el error, mayor será la fiabilidad y viceversa.
Existen diversos tipos de confiabilidad de un test que varían en los factores que ellos incluyen dentro de la varianza de error. En un caso (test-retest), abarca las fluctuaciones temporales, en un segundo caso (fiabilidad de la forma equivalente) se refiere a las diferencias entre los conjuntos de elementos paralelos, en el tercer caso (kuder-Richardson) se evalúa el contenido en su muestreo y heterogeneidad. Finalmente, las diferencias entre los puntuadores son medidas mediante la correlación que da el coeficiente de fiabilidad del puntuador.

3. Normas: Las normas de los test representan la ejecución en el test de la muestra evaluada para tipificarlo. Por ello si la muestra es amplia, las normas serán más apropiadas por un mayor número de sujetos. Pero si es demasiado extensa corre el riesgo de no poder ser tipificada adecuadamente.

FIABILIDAD TESTS, RETESTS Y VALIDEZ

miércoles, 7 de noviembre de 2018

FIABILIDAD TESTS, RETESTS Y VALIDEZ

No hay comentarios.:

Publicar un comentario