La fiabilidad se
concibe como la consistencia o estabilidad de las medidas cuando el proceso de
medición se repite. Por ejemplo, si las lecturas del peso de una cesta de
manzanas varían mucho en sucesivas mediciones efectuadas en las mismas condiciones,
se considerará que las medidas son inestables, inconsistentes y poco fiables.
La carencia de precisión podría tener consecuencias indeseables en el coste de
ese producto en una ocasión determinada. De esta concepción se sigue que de la
variabilidad de las puntuaciones obtenidas en repeticiones de la medición puede
obtenerse un indicador de la fiabilidad, consistencia o
Precisión de las
medidas. Si la variabilidad de las medidas del objeto es grande, se considerará
que los valores son imprecisos y, en consecuencia, poco fiables.
De manera semejante, si
una persona contestase a un test repetidamente en las mismas condiciones, de la
variabilidad de las puntuaciones podría obtenerse un indicador de su grado de
fiabilidad. La imposibilidad de lograr que las medidas se lleven a cabo
exactamente en las mismas condiciones es uno de los problemas de la medición
psicológica y educativa. El nivel de atención y de motivación de una persona
puede variar al contestar repetidamente a la misma prueba, la dificultad de dos
tests pretendidamente iguales construidos para medir el mismo constructo puede
ser desigual, las muestras de examinadores que califican un examen de
selectividad pueden diferir en el grado de severidad, etc. Por tanto, el
esfuerzo de los evaluadores ha de centrarse en estandarizar el procedimiento de
medición para minimizar la influencia de aquellas variables extrañas que pueden
producir inconsistencias no deseadas. La estandarización del procedimiento
implica obtener las medidas en todas las ocasiones en condiciones muy
semejantes: con el mismo tiempo de ejecución, las mismas instrucciones,
similares ejemplos de práctica, tareas de contenido y dificultad equivalentes,
similares criterios de calificación de los evaluadores de exámenes, etc. El estudio
de la fiabilidad parte de la idea de que la puntuación observada en una prueba
es un valor concreto de una variable aleatoria consistente en todas las
posibles puntuaciones que podrían haber sido obtenidas por una persona en
repeticiones del proceso de medida en condiciones semejantes (Haertel, 2006).
Obviamente, no es posible repetir la medición un número muy grande de veces a
los mismos participantes. Por tanto, la distribución de las puntuaciones es
hipotética y sus propiedades deben ser estimadas indirectamente. La media de
esa distribución, que reflejaría el nivel de una persona en el atributo de
interés, es denominada puntuación verdadera en la Teoría Clásica de los Tests
(TCT). La TCT es un conjunto articulado de procedimientos psicométricos desarrollados
fundamentalmente en la primera mitad del siglo pasado, que se ha utilizado
extensivamente para la construcción, análisis y aplicación de los tests
psicológicos y educativos. Aunque la TCT surgió en el contexto de la medición
de las aptitudes humanas, sus propuestas se extienden a otras áreas. Se asume
que la puntuación verdadera de una persona no cambia entre ocasiones, por lo
que la variabilidad de las puntuaciones observadas se debe a la influencia de
un error de medida aleatorio, no sistemático (producido por causas desconocidas
e incontrolables en esa situación). La cantidad de error en cada caso sería la
diferencia entre una puntuación observada y la puntuación verdadera. La
desviación típica de los errores, denominada error típico de medida (ETM),
indica la precisión de las puntuaciones de una persona, es decir, su
variabilidad en torno a la puntuación verdadera. El ETM refleja el error que
puede esperarse en una puntuación observada. Por ejemplo, si el error pico de
medida del peso de un objeto fuese de dos gramos, se puede aventurar que el
peso observado diferirá del peso verdadero en más de dos gramos solo la tercera
parte de las veces. Aunque la TCT permite estimar el ETM para personas situadas
en distintos rangos de la variable (denominados errores típicos de medida
condicionales), suele emplearse un único valor aplicable de forma general a
todas las puntuaciones de las personas de una población. Obviamente, la
valoración del ETM depende de la magnitud de los objetos que se están midiendo:
dos gramos es un error despreciable si se pesan objetos muy pesados como sacos
de cereales, pero es un error notable si se pesan objetos más livianos como los
diamantes. Es decir, el valor del ETM está en las mismas unidades que los
objetos medidos y carece de un límite superior estandarizado que facilite su
valoración. Por ello, se ha propuesto un índice ce estandarizado de
consistencia o precisión denominado coeficiente de fiabilidad que puede oscilar
entre 0 y 1.De la TCT se deriva que este coeficiente es el cociente entre la
varianza de las puntuaciones verdaderas y la varianza de las puntuaciones
observadas en una población de personas. En consecuencia, indica la proporción
de la variabilidad de las puntuaciones observadas que no puede atribuirse al error
de medida; por ejemplo, si el coeficiente de fiabilidad es de 0,80, se
considera que el 20% de la variabilidad observada es espuria
CARACTERÍSTICAS DE LOS TEST
Para comprender
mejor este tema será mejor revisar nuestros libros de estadística ya que tres
aspectos son fundamentales en la calidad de un test:
1.
Validez: Un test es
válido cuando mide lo que intenta medir, lo que conlleva que es válido cuando
mide el objeto en la forma apropiada. Tres tipos de procedimientos han sido
utilizados en la determinación de la validez de un test:
a.
Validez de Contenido: Evalúa en qué medida el test toma una muestra de
conducta típica de la conducta que se pretende medir. En muchas ocasiones lo
que se desarrolla como medida de un constructo es más lo que el evaluador
cree que el constructo es, que lo que en realidad eso podría ser.
b. Validez Empírica: Se refiere a la capacidad de un test de hacer predicciones acerca del desempeño de un sujeto en una situación relacionada en la conducta medida.
c. Validez Estructural: Esta dada por la capacidad de la prueba para medir un rasgo o un constructo teórico. Ejemplo típico del uso de este criterio se encuentra en las pruebas de inteligencia. Los criterios más utilizados para establecer la validez estructural son entre otros, la diferenciación con la edad, las correlaciones del test con otros test, el análisis factorial y la consistencia interna.
b. Validez Empírica: Se refiere a la capacidad de un test de hacer predicciones acerca del desempeño de un sujeto en una situación relacionada en la conducta medida.
c. Validez Estructural: Esta dada por la capacidad de la prueba para medir un rasgo o un constructo teórico. Ejemplo típico del uso de este criterio se encuentra en las pruebas de inteligencia. Los criterios más utilizados para establecer la validez estructural son entre otros, la diferenciación con la edad, las correlaciones del test con otros test, el análisis factorial y la consistencia interna.
2.
Confiabilidad: La
confiabilidad de un test se mide por la estabilidad de las puntuaciones de un
individuo ante un test, repetida en varias ocasiones y en situaciones
diferentes. También puede ser definida con base en el error; cuando menor sea
el error, mayor será la fiabilidad y viceversa.
Existen diversos tipos de confiabilidad de un test que varían en los factores que ellos incluyen dentro de la varianza de error. En un caso (test-retest), abarca las fluctuaciones temporales, en un segundo caso (fiabilidad de la forma equivalente) se refiere a las diferencias entre los conjuntos de elementos paralelos, en el tercer caso (kuder-Richardson) se evalúa el contenido en su muestreo y heterogeneidad. Finalmente, las diferencias entre los puntuadores son medidas mediante la correlación que da el coeficiente de fiabilidad del puntuador.
Existen diversos tipos de confiabilidad de un test que varían en los factores que ellos incluyen dentro de la varianza de error. En un caso (test-retest), abarca las fluctuaciones temporales, en un segundo caso (fiabilidad de la forma equivalente) se refiere a las diferencias entre los conjuntos de elementos paralelos, en el tercer caso (kuder-Richardson) se evalúa el contenido en su muestreo y heterogeneidad. Finalmente, las diferencias entre los puntuadores son medidas mediante la correlación que da el coeficiente de fiabilidad del puntuador.
3.
Normas: Las normas de los test
representan la ejecución en el test de la muestra evaluada para tipificarlo.
Por ello si la muestra es amplia, las normas serán más apropiadas por un mayor
número de sujetos. Pero si es demasiado extensa corre el riesgo de no poder ser
tipificada adecuadamente.
No hay comentarios.:
Publicar un comentario