FIABILIDAD TESTS, RETESTS Y VALIDEZ : noviembre 2018

miércoles, 7 de noviembre de 2018

PORTADA

BLOG

FIABILIDAD TESTS, RETESTS Y VALIDEZ

Realizado por

LISANA CARVAJAL SALCEDO

DANIEL LUNA

EMERSON CORTES

LUZ STELLA GUEVARA

PSICOLOGÍA VI

UNIVERSIDAD MINUTO DE DIOS

CAUCASIA – ANTIOQUIA 10 -11 -2018

FIABILIDAD TESTS, RETESTS Y VALIDEZ

FIABILIDAD

La fiabilidad se concibe como la consistencia o estabilidad de las medidas cuando el proceso de medición se repite. Por ejemplo, si las lecturas del peso de una cesta de manzanas varían mucho en sucesivas mediciones efectuadas en las mismas condiciones, se considerará que las medidas son inestables, inconsistentes y poco fiables. La carencia de precisión podría tener consecuencias indeseables en el coste de ese producto en una ocasión determinada. De esta concepción se sigue que de la variabilidad de las puntuaciones obtenidas en repeticiones de la medición puede obtenerse un indicador de la fiabilidad, consistencia o

Precisión de las medidas. Si la variabilidad de las medidas del objeto es grande, se considerará que los valores son imprecisos y, en consecuencia, poco fiables.

De manera semejante, si una persona contestase a un test repetidamente en las mismas condiciones, de la variabilidad de las puntuaciones podría obtenerse un indicador de su grado de fiabilidad. La imposibilidad de lograr que las medidas se lleven a cabo exactamente en las mismas condiciones es uno de los problemas de la medición psicológica y educativa. El nivel de atención y de motivación de una persona puede variar al contestar repetidamente a la misma prueba, la dificultad de dos tests pretendidamente iguales construidos para medir el mismo constructo puede ser desigual, las muestras de examinadores que califican un examen de selectividad pueden diferir en el grado de severidad, etc. Por tanto, el esfuerzo de los evaluadores ha de centrarse en estandarizar el procedimiento de medición para minimizar la influencia de aquellas variables extrañas que pueden producir inconsistencias no deseadas. La estandarización del procedimiento implica obtener las medidas en todas las ocasiones en condiciones muy semejantes: con el mismo tiempo de ejecución, las mismas instrucciones, similares ejemplos de práctica, tareas de contenido y dificultad equivalentes, similares criterios de calificación de los evaluadores de exámenes, etc. El estudio de la fiabilidad parte de la idea de que la puntuación observada en una prueba es un valor concreto de una variable aleatoria consistente en todas las posibles puntuaciones que podrían haber sido obtenidas por una persona en repeticiones del proceso de medida en condiciones semejantes (Haertel, 2006). Obviamente, no es posible repetir la medición un número muy grande de veces a los mismos participantes. Por tanto, la distribución de las puntuaciones es hipotética y sus propiedades deben ser estimadas indirectamente. La media de esa distribución, que reflejaría el nivel de una persona en el atributo de interés, es denominada puntuación verdadera en la Teoría Clásica de los Tests (TCT). La TCT es un conjunto articulado de procedimientos psicométricos desarrollados fundamentalmente en la primera mitad del siglo pasado, que se ha utilizado extensivamente para la construcción, análisis y aplicación de los tests psicológicos y educativos. Aunque la TCT surgió en el contexto de la medición de las aptitudes humanas, sus propuestas se extienden a otras áreas. Se asume que la puntuación verdadera de una persona no cambia entre ocasiones, por lo que la variabilidad de las puntuaciones observadas se debe a la influencia de un error de medida aleatorio, no sistemático (producido por causas desconocidas e incontrolables en esa situación). La cantidad de error en cada caso sería la diferencia entre una puntuación observada y la puntuación verdadera. La desviación típica de los errores, denominada error típico de medida (ETM), indica la precisión de las puntuaciones de una persona, es decir, su variabilidad en torno a la puntuación verdadera. El ETM refleja el error que puede esperarse en una puntuación observada. Por ejemplo, si el error pico de medida del peso de un objeto fuese de dos gramos, se puede aventurar que el peso observado diferirá del peso verdadero en más de dos gramos solo la tercera parte de las veces. Aunque la TCT permite estimar el ETM para personas situadas en distintos rangos de la variable (denominados errores típicos de medida condicionales), suele emplearse un único valor aplicable de forma general a todas las puntuaciones de las personas de una población. Obviamente, la valoración del ETM depende de la magnitud de los objetos que se están midiendo: dos gramos es un error despreciable si se pesan objetos muy pesados como sacos de cereales, pero es un error notable si se pesan objetos más livianos como los diamantes. Es decir, el valor del ETM está en las mismas unidades que los objetos medidos y carece de un límite superior estandarizado que facilite su valoración. Por ello, se ha propuesto un índice ce estandarizado de consistencia o precisión denominado coeficiente de fiabilidad que puede oscilar entre 0 y 1.De la TCT se deriva que este coeficiente es el cociente entre la varianza de las puntuaciones verdaderas y la varianza de las puntuaciones observadas en una población de personas. En consecuencia, indica la proporción de la variabilidad de las puntuaciones observadas que no puede atribuirse al error de medida; por ejemplo, si el coeficiente de fiabilidad es de 0,80, se considera que el 20% de la variabilidad observada es espuria

CARACTERÍSTICAS DE LOS TEST

Para comprender mejor este tema será mejor revisar nuestros libros de estadística ya que tres aspectos son fundamentales en la calidad de un test:

1. Validez: Un test es válido cuando mide lo que intenta medir, lo que conlleva que es válido cuando mide el objeto en la forma apropiada. Tres tipos de procedimientos han sido utilizados en la determinación de la validez de un test:

a.   Validez de Contenido: Evalúa en qué medida el test toma una muestra de conducta típica de la conducta que se pretende medir. En muchas ocasiones lo que se desarrolla como medida de un constructo es más lo que el evaluador cree que el constructo es, que lo que en realidad eso podría ser.
b.   Validez Empírica: Se refiere a la capacidad de un test de hacer predicciones acerca del desempeño de un sujeto en una situación relacionada en la conducta medida.
c.   Validez Estructural: Esta dada por la capacidad de la prueba para medir un rasgo o un constructo teórico. Ejemplo típico del uso de este criterio se encuentra en las pruebas de inteligencia. Los criterios más utilizados para establecer la validez estructural son entre otros, la diferenciación con la edad, las correlaciones del test con otros test, el análisis factorial y la consistencia interna.

2. Confiabilidad: La confiabilidad de un test se mide por la estabilidad de las puntuaciones de un individuo ante un test, repetida en varias ocasiones y en situaciones diferentes. También puede ser definida con base en el error; cuando menor sea el error, mayor será la fiabilidad y viceversa.
Existen diversos tipos de confiabilidad de un test que varían en los factores que ellos incluyen dentro de la varianza de error. En un caso (test-retest), abarca las fluctuaciones temporales, en un segundo caso (fiabilidad de la forma equivalente) se refiere a las diferencias entre los conjuntos de elementos paralelos, en el tercer caso (kuder-Richardson) se evalúa el contenido en su muestreo y heterogeneidad. Finalmente, las diferencias entre los puntuadores son medidas mediante la correlación que da el coeficiente de fiabilidad del puntuador.

3. Normas: Las normas de los test representan la ejecución en el test de la muestra evaluada para tipificarlo. Por ello si la muestra es amplia, las normas serán más apropiadas por un mayor número de sujetos. Pero si es demasiado extensa corre el riesgo de no poder ser tipificada adecuadamente.

RETEST

Repetición del mismo test en una segunda ocasión. Este procedimiento sirve sobretodo para medir la fiabilidad (o confiabilidad) del test en cuestión. El coeficiente de fiabilidad surge de la correlación entre las puntuaciones obtenidas por los mismos sujetos en las dos aplicaciones del test.

Bajo esta denominación se indica que las puntuaciones repetidas X y X’ se han obtenido aplicando el mismo test a los mismos individuos y en las mismas condiciones en dos ocasiones diferentes en el tiempo. Es evidente que, si se determina que el test debe ser aplicado a los mismos individuos y en las mismas condiciones, hay que ser extremadamente cuidadosos en la verificación de que esas premisas se cumplen. Uno de los problemas a los que con mayor frecuencia se hace alusión en la literatura es al posible efecto de aprendizaje del sujeto, y que influirá en sus resultados, cuando realiza por segunda vez la prueba. Por lo tanto una fuente de varianza de error a controlar es el muestreo del tiempo. Este efecto se elimina, o al menos queda paliado, si se deja transcurrir un tiempo suficiente entre ambas aplicaciones de la prueba. Esta solución sin embargo no siempre es plausible, bien porque no se pueda tener disponibles a los mismos sujetos en un tiempo posterior conveniente, o bien porque el rasgo que se está evaluando pueda sufrir también variaciones en ese intervalo de tiempo, por ser función del tiempo (es el caso de las variables evolutivas) o porque se produzca alguna intervención que lo modifique. Si la prueba es fiable, y las condiciones de aplicación de la prueba en las dos ocasiones son esencialmente iguales, se observará una significativa estabilidad en las puntuaciones. En general, se utiliza el coeficiente de correlación producto – momento de Pearson para obtener el coeficiente de confiabilidad test – retest. Actualmente, la expresión “test - retest” se utiliza también para describir la administración de diferentes formas de una misma prueba, en cuyo caso, este coeficiente de confiabilidad se combina con un coeficiente de formas alternas. En cualquier caso, intervienen (1) fluctuaciones en el tiempo y en la situación de prueba, así como (2) cualquier efecto que ejerza la primera prueba sobre la segunda. Cuando es considerable el intervalo de tiempo transcurrido entre las dos administraciones, como por ejemplo, un intervalo de varios meses, un coeficiente test-retest de confiabilidad no sólo reflejaría la consistencia de medición inherente a la prueba, sino también la estabilidad de la característica medida en los examinados

VÍDEO

VALIDEZ

El concepto de validez ha experimentado transformaciones importantes durante el último siglo, provocadas por los diversos objetivos a los que se han destinado los tests. De acuerdo con Kane (2006), entre 1920 y 1950 el uso principal de las pruebas consistió en predecir alguna variable de interés denominada criterio (por ejemplo, el rendimiento laboral o académico). En la actualidad este enfoque sigue siendo de suma importancia cuando se emplean las pruebas para seleccionar a los candidatos más aptos para un empleo, en el programa de admisión, en la adscripción de pacientes a tratamientos, etc. En estos casos, la evaluación de la utilidad de la prueba suele cuantificarse mediante la correlación entre sus puntuaciones y las de alguna medida del criterio (coeficiente de validez). Sin embargo, el éxito de este tipo de justificación depende de la calidad de la medida del criterio, especialmente de su representatividad (por ejemplo, ¿los indicadores para medir el criterio son suficientes y representativos del puesto de trabajo a desempeñar?). De ahí que el énfasis se desplazase a la justificación de que la puntuación en el criterio procedía deuna muestra de indicadores que representase de forma apropiada el dominio o contenido a medir (la totalidad de los indicadores posibles). Por tanto, esta fase inicial de desarrollo del concepto terminó con la propuesta dedos vías regias para establecer la validez de las pruebas: la validación de criterio (la correlación entre las puntuaciones del test y las puntuaciones en el criterio) y la validación de contenido (la justificación de que losítems para medir el criterio son una muestra representativa del contenido a evaluar).La validación de contenido se extendió desde el análisis del criterio al de la validez de los tests predictores: una prueba no puede considerarse válida si los ítems que la componen no muestrean adecuadamente el con-tenido a evaluar. La validación de contenido es un enfoque especialmente fértil cuando las facetas del dominio a medir pueden identificarse y definirse claramente. Es éste el caso de los tests dirigidos a evaluar el rendimiento académico que puede especificarse en función de los objetivos de la instrucción (conceptos y habilidades que un alumno ha de poseer). La metodología de validación descansa fundamentalmente en la evaluación de expertos acerca de la pertinencia y la suficiencia de los ítems, así como de la adecuación de otras características de la prueba como las instrucciones, el tiempo de ejecución, etc. Sin embargo, especificar con precisión el contenido de las manifestaciones de constructos como la extraversión, la memoria de trabajo o la motivación de logro es una tarea más difícil.

De ahí que tanto la validación de contenido como la de criterio se considerasen insuficientes para justificar el uso de pruebas dirigidas a evaluar aptitudes cognitivas o atributos de la personalidad. Esta insatisfacción se concretó en el influyente artículo de Cronbach y Meehl (1955) en el que se propone la validación de constructo como el modo principal de validación. Cronbach (1971) puntualizó que en un test para medir un rasgo de personalidad no hay únicamente un criterio relevante que predecir, ni un contenido que muestrear. Se dispone, por el contrario, de una teoría acerca del rasgo y de sus relaciones con otros constructos y variables. Si se hipotetiza que la puntuación del test es una manifestación válida del atributo, se puede contrastar la asunción analizando sus relaciones con otras variables. En consecuencia, la validación de constructo puede concebirse como un caso particular de la contrastación de las teorías científicas mediante el método hipotético-deductivo. Aunque el usuario no sea, en general, consciente de ello, las técnicas de medida implican teorías (que se suponen suficientemente corroboradas en el momento de usarlas para contrastar hipótesis científicas o prácticas), por lo que deben venir avaladas ellas mismas por teorías cuyo grado de sofisticación dependerá del momento en que se encuentre el programa de investigación en el que han surgido (Delgado y Prieto,

1997). Dado que una teoría postula una red de relaciones entre constructos y atributos observables, no podremos asumir que las puntuaciones son válidas si la teoría es formalmente incorrecta, las predicciones derivadas de la teoría no se cumplen en los datos empíricos o se han violados otros supuestos auxiliares. Así, desde finales del siglo pasado se ha impuesto la concepción de que la validación de constructo constituye un marco integral para obtener pruebas de la validez,

Incluyendo las procedentes de la validación de criterio y de contenido (Messick, 1989). El marco de validación se define a partir de teorías en las que se especifican el significado del constructo a evaluar, sus relaciones con otros constructos, sus manifestaciones y sus potenciales aplicaciones e interpretaciones. Además de las pruebas necesarias para justificar una adecuada representación del constructo, Messick incluyó en el marco de validación la justificación de las consecuencias del uso de los tests (las implicaciones individuales y sociales). Como se comentará más adelante, la inclusión de la denominada validación de las consecuenciases aún objeto de debate. Este breve resumen de la historia del conceptode validez, de la que hemos mencionado algunos hitos importantes, permite comprender los conceptos actuales de validez y validación, de los que destacaremos a continuación sus principales características.

En la actualidad se considera que la validez se refiere al grado en que la evidencia empírica y la teoría apoyan la interpretación de las puntuaciones de los tests relacionada con un uso específico (AERA, APA y NCME,

1999). La validaciones un proceso de acumulación de pruebas para apoyar la interpretación y el uso de laspuntuaciones. Por tanto, el objeto de la validación no es el test, sino la interpretación de sus puntuaciones en relación con un objetivo o uso concreto. El proceso de validación se concibe como un argumento que parte de una definición explícita de las interpretaciones que se proponen, de su fundamentación teórica, de las predicciones derivadas y de los datos que justificarían científicamente su pertinencia. Dado que las predicciones suelen ser múltiples, una única prueba no puede sustentar un juicio favorable sobre la validez de las interpretaciones propuestas. Son necesarias pruebas múltiples y convergentes obtenidas en diferentes estudios. Por ello,se considera que la validación es un proceso dinámico y abierto. Obviamente, los usos y las interpretaciones relacionadas pueden ser muy variados. Por ello, las fuentes de validación son múltiples y su importancia varía en función de los objetivos. Los Standards for educational and psychological testing

(AERA, APA y NCME, 1999)se refieren a las más importantes: el contenido del test,los procesos de respuesta, la estructura interna de la prueba, las relaciones con otras variables y las consecuencias derivadas del uso para el que se proponen.Antes de resumir estos enfoques metodológicos, hemos de puntualizar que reflejan distintas facetas de la validez que las engloba como un único concepto integrador. Por tanto, no es riguroso utilizar términos, como validez predictiva, validez de contenido, factorial, etc., que inducirían a considerar distintos tipos de validez.

CARACTERÍSTICAS DE VALIDEZ

Resultado de imagen para validez CARACTERISTICAS

El criterio de validez del instrumento tiene que ver con el contenido y su construcción.

-La validez establece la relación del instrumento con las variables que pretenden medir.

-Relaciona los ítems del cuestionario; con los basamentos teóricos y os objetivos de la investigación.

- Este proceso de validación se vincula a las variables entre sí y la hipótesis de la investigación.

-Determinar la validez del instrumento indica someterlo a un proceso de evaluación previa.

MÉTODOS PARA VERIFICAR LA VALIDEZ

VALIDEZ DE CONTENIDO:

VALIDEZ DEL CRITERIO:

VALIDEZ DEL CONSTRUCTO:

MEDIDA DE ESTABILIDAD:

El mismo instrumento se aplica varias veces al mismo grupo.

METODO DE FORMAS ALTERNATIVAS:

Analiza 2 o mas versiones de los instrumentos arrojando medidas similares al aplicarse.

MÉTODOS DE MITADES PARTIDAS:

Requiere solo una aplicación de la medición. El conjunto de ítems es dividido a la mitad y se revisan los resultados.

VALIDEZ SEGÚN PARADIGMA:

En la investigación cualitativa, se procura por la validez en la fase de análisis y de interpretación de datos.

En la investigación cuantitativa la validez se encuentra en la fase de recolección de datos, ya que se piensa que los datos cuantitativos respecto a los procedimientos estadísticos no representan mayor problema.

TRIANGULACIÒN:

Es la combinación de dos o más teorías, fuentes de datos y métodos de investigación, en el estudio de un fenómeno singular.

FACTORES QUE AFECTAN LA VALIDEZ Y LA CONFIABILIDAD

*IMPROVISACIÓN.

*INSTRUMENTOS NO CONTEXTUALIZADOS

*INSTRUMENTOS INADECUADOS A LA PERSONA QUE LOS REALIZA

*CONDICIONES EN QUE SE APLICA EL INSTRUMENTO.

Resultado de imagen para FACTORES QUE AFECTAN LA VALIDEZ Y CONFIABILIDAD

1. VALIDEZ DE CONTENIDO

Se refiere al grado en que el test presenta una muestra adecuada de los contenidos a

los que se refiere, sin omisiones y sin desequilibrios de contenido.

La validez de contenido se utiliza principalmente con tests de rendimiento, y

especialmente con los tests educativos y tests referidos al criterio. En este tipo de tests

se trata de comprobar los conocimientos respecto a una materia o un curso.

La validez de contenido descansa generalmente en el juicio de expertos (métodos de

juicio). Se define como el grado en que los ítems que componen el test representan el

contenido que el test trata de evaluar. Por tanto, la validez de contenido se basa en (a) la

definición precisa del dominio y (b) en el juicio sobre el grado de suficiencia con que

ese dominio se evalúa.

A pesar de que no se utiliza un índice de correlación para expresar la validez de

contenido, existen procedimientos para cuantificarlo. Algunos de estos procedimientos

son:

a) Cálculo de descriptivos: Consiste en calcular la media y la desviación típica de

todos los ítems. A continuación, se determinará una puntuación de corte (o

índice de validez de contenido) que refleje, en base a la evaluación de los

expertos (método de juicio), que la puntuación del ítem es demasiado baja en

relevancia como para ser incluido en la escala. No hay reglas. La decisión

dependerá del juicio propio. Por este motivo, se han de tener en cuenta las

siguientes cuestiones:

Ser capaz de justificar la decisión sobre la puntuación corte.

· Usar la misma puntuación de corte para todos los ítems de la escala,

incluso si la escala es multidimensional.

· No poner una puntuación de corte tan alta que implique eliminar muchos

ítems. (Se podrán eliminar más ítems con el cálculo de la fiabilidad y el

análisis factorial).

b) Índice de validez de contenido (IVC): Lawshe (1975) propuso un índice de

validez basado en la valoración de un grupo de expertos de cada uno de los

ítems del test como innecesario, útil y esencial. El índice se calcula a través de la

siguiente fórmula:

ne - N/2

IVC= -----------------

N/2

Donde ne es el número de expertos que han valorado el ítem como esencial y N es el

número total de expertos que han evaluado el ítem.

El IVC oscila entre +1 y -1, siendo las puntuaciones positivas las que indican una

mejor validez de contenido. Un índice IVC = 0 indica que la mitad de los expertos

han evaluado el ítems como esencial. Los ítems con una bajo IVC serán eliminados.

Lawshe (1975) sugiere que un IVC = .29 será adecuado cuando se hayan utilizado 40 expertos, un IVC = .51 será suficiente con 14 expertos, pero un IVC de, al

menos, .99 será necesario cuando el número de expertos sea 7 o inferior.

2. VALIDEZ DE CRITERIO O CRITERIAL

Se refiere al grado en que el test correlaciona con variables ajenas al test (criterios)

con lo que se espera por hipótesis que debe correlacionar de determinado modo. Un

criterio es una variable distinta del test que se toma como referencia, que se sabe que es

un indicador de aquello que el test pretende medir o que se sabe que debe presentar una

relación determinada con lo que el test pretende medir. Se denomina coeficiente de

validez a la correlación del test con un criterio externo.

La elección del criterio es el aspecto crítico en este procedimiento de determinación

de la validez, ya que es muy difícil obtener buenos criterios. Un mismo test puede tener

más de un tipo de validez, es decir puede estar validado con respecto a varios criterios y

los diferentes coeficientes de validez que resultan pueden tener valores diferentes.

Dentro del concepto de validez de criterio cabe distinguir a su vez entre:

- Validez externa y validez interna

- Validez concurrente y validez predictiva

a) Hablamos de validez externa si el test se ha validado con respecto a un criterio

externo, como por ejemplo, una evaluación de rendimiento. La correlación del test

con el criterio da lugar al coeficiente de validez externa. Hace referencia a la

posibilidad de generalización.

Sin embargo, hablaremos de validez interna si se correlaciona un test con otro

con validez reconocida que mide el mismo rasgo; los coeficientes de validez interna

suelen ser menores que los de validez externa y su interpretación es difícil. Para

evitar errores de interpretación se suele correlacionar un test con todos los tests ya

validados que miden lo mismo y calcular un coeficiente de correlación múltiple.

Este coeficiente de validez interna suele alcanzar el valor del coeficiente de validez

externa. Hace referencia a la validez del resultado de la investigación para los

sujetos estudiados.

b) La distinción entre validez concurrente y predictiva se emplea según se utilice un

criterio disponible en el momento (validez concurrente) o cuando se pretenda

predecir la conducta futura de un individuo (validez predictiva). Este tipo de validez

se exige especialmente para los instrumentos que se utilizan en selección y

orientación académica o profesional.

Cálculo del coeficiente de validez

Los procedimientos estadísticos utilizados en la validación referida a un criterio

varían según el número de predictores utilizados (uno o más tests) y el número de

criterios empleados (criterio único y criterio compuesto o múltiple). Martínez Arias

(1995) distingue los siguientes casos:

1. Un único test y un solo criterio: se emplearían los procedimientos de correlación y

regresión lineal simple.

2. Varios predictores (tests) y un solo criterio: se emplea la correlación y regresión

lineal múltiple o el análisis discriminante.

3. Varios predictores y varios criterios: regresión lineal multivariante y la correlación

canónica.

4. VALIDEZ DE CONSTRUCTO

Es un concepto más complejo. Se refiere al grado en que el instrumento de medida

cumple con las hipótesis que cabría esperar para un instrumento de medida diseñado

para medir precisamente aquello que deseaba medir. Se puede considerar un concepto

general que abarcaría los otros tipos de validez.

El término constructo hace referencia a un concepto teórico psicológico

inobservable (ej. la inteligencia, cada factor de personalidad, las aptitudes, las actitudes,

etc.) La definición operativa de estos constructos presenta considerables dificultades en

la práctica, ya que no son directamente observables. Debido a esto, la validación de un

constructo es un proceso laborioso y difícil.

Para la estimación de la validez de constructo se utiliza una metodología variada.

Algunos de los métodos más utilizados son:

1) Métodos correlacionales

Los coeficientes de correlación nos indican la relación del test con el conjunto de

instrumentos de medida y criterios posibles, así como la relación entre el test y el

constructo.

- Correlación del test con un criterio externo

- Correlación test con otros tests que pretenden medir los mismos aspectos o aspectos

semejantes.

- Correlación del test con otros tests que miden características, que nada tienen que

ver con el constructo que subyace al test.

Campbell y Fiske (1959) proponen que se calcule dos tipos de validez:

a) Validez convergente: indica las correlaciones positivas con otros tests que miden lo

mismo.

b) Validez discriminante: indica las correlaciones nulas con tests que miden aspectos

diferentes.

A través de estos dos tipos de validez se podría ir definiendo un constructo

psicológico.

2) Análisis Factorial del test

El análisis factorial permite ordenar los datos y facilitar la interpretación de las

correlaciones. Se espera un factor explicativo del constructo con saturaciones altas del

test y los tests que miden aspectos parecidos, y con saturaciones bajas de aquellos tests

que miden aspectos diferentes.

Con frecuencia se habla de la estructura factorial de un test como validez

estructural o validez factorial

3) Análisis de las diferencias individuales que pone de manifiesto un test

Se refiere al análisis de la distribución de las puntuaciones de test y a comparaciones

de estos aspectos en distintas muestras. Diferentes edades, sexos, niveles profesionales,

etc. Estas comparaciones no son arbitrarias, sino que se derivan de hipótesis que se

hacen en función de los conocimientos que se tiene del constructo.

4) Análisis de los cambios en las diferencias individuales

Se refiere a la investigación diacrónica de los mismos sujetos con el mismo test.

Este tipo de estudios permite conocer la estabilidad del rasgo a lo largo del tiempo y a

través de situaciones.

5) Análisis lógico de los elementos del test

Se refiere al análisis de ítems del test en relación con el constructo. Aquellos ítems

que correlacionan positivamente entre sí, pertenecen al mismo constructo. Esto significa

que el análisis de consistencia interna de un test no sólo aporta datos respecto a su

fiabilidad, sino a su validez. Si se obtiene un coeficiente de consistencia interna bajo,

significa que el test no mide un único constructo.

Todos estos métodos enumerados se complementan entre sí. Se trata de ver el

constructo que trata de medir el test desde diferentes ángulos. Por tanto, no existe una

única medida de la validez de constructo.

5. CUESTIONES RELATIVAS A LA ESTIMACIÓN DE LA VALIDEZ

1. Valor máximo del coeficiente de validez

El valor máximo que puede alcanzar un coeficiente de validez, estimado

mediante la correlación entre el test y el criterio, es menor o igual que su índice de

fiabilidad. Cuanto peor medido esté el criterio, o menos fiables sean las puntuaciones

obtenidas en el criterio, la prueba de rendimiento, peor va a ser la predicción.

2. Validez y longitud del test

Del mismo modo que la fiabilidad de un test mejora aumentando su longitud, con la

validez también ocurre lo mismo. Es decir, cuanto mayor sea el número de ítems, mayor

será la validez del test.

3. Validez y variabilidad del grupo

La correlación entre dos variables aumenta conforme lo hace la variabilidad de la

muestra. Si restringimos el rango de variabilidad de las puntuaciones de una muestra de

sujetos, el coeficiente de validez (la correlación del test con el criterio) será menor de lo

que debería.