miércoles, 7 de noviembre de 2018

PORTADA

                                              Resultado de imagen para UNIMINUTO
                                                                        

                                                                   BLOG


 FIABILIDAD TESTS, RETESTS Y VALIDEZ 


 Realizado por 

      LISANA CARVAJAL SALCEDO

DANIEL LUNA 

EMERSON CORTES

LUZ STELLA GUEVARA

PSICOLOGÍA VI



UNIVERSIDAD        MINUTO DE DIOS




   CAUCASIA – ANTIOQUIA                                                10 -11 -2018

FIABILIDAD TESTS, RETESTS Y VALIDEZ

      FIABILIDAD                

     Resultado de imagen para FIABILIDAD
La fiabilidad se concibe como la consistencia o estabilidad de las medidas cuando el proceso de medición se repite. Por ejemplo, si las lecturas del peso de una cesta de manzanas varían mucho en sucesivas mediciones efectuadas en las mismas condiciones, se considerará que las medidas son inestables, inconsistentes y poco fiables. La carencia de precisión podría tener consecuencias indeseables en el coste de ese producto en una ocasión determinada. De esta concepción se sigue que de la variabilidad de las puntuaciones obtenidas en repeticiones de la medición puede obtenerse un indicador de la fiabilidad, consistencia o
Precisión de las medidas. Si la variabilidad de las medidas del objeto es grande, se considerará que los valores son imprecisos y, en consecuencia, poco fiables.
De manera semejante, si una persona contestase a un test repetidamente en las mismas condiciones, de la variabilidad de las puntuaciones podría obtenerse un indicador de su grado de fiabilidad. La imposibilidad de lograr que las medidas se lleven a cabo exactamente en las mismas condiciones es uno de los problemas de la medición psicológica y educativa. El nivel de atención y de motivación de una persona puede variar al contestar repetidamente a la misma prueba, la dificultad de dos tests pretendidamente iguales construidos para medir el mismo constructo puede ser desigual, las muestras de examinadores que califican un examen de selectividad pueden diferir en el grado de severidad, etc. Por tanto, el esfuerzo de los evaluadores ha de centrarse en estandarizar el procedimiento de medición para minimizar la influencia de aquellas variables extrañas que pueden producir inconsistencias no deseadas. La estandarización del procedimiento implica obtener las medidas en todas las ocasiones en condiciones muy semejantes: con el mismo tiempo de ejecución, las mismas instrucciones, similares ejemplos de práctica, tareas de contenido y dificultad equivalentes, similares criterios de calificación de los evaluadores de exámenes, etc. El estudio de la fiabilidad parte de la idea de que la puntuación observada en una prueba es un valor concreto de una variable aleatoria consistente en todas las posibles puntuaciones que podrían haber sido obtenidas por una persona en repeticiones del proceso de medida en condiciones semejantes (Haertel, 2006). Obviamente, no es posible repetir la medición un número muy grande de veces a los mismos participantes. Por tanto, la distribución de las puntuaciones es hipotética y sus propiedades deben ser estimadas indirectamente. La media de esa distribución, que reflejaría el nivel de una persona en el atributo de interés, es denominada puntuación verdadera en la Teoría Clásica de los Tests (TCT). La TCT es un conjunto articulado de procedimientos psicométricos desarrollados fundamentalmente en la primera mitad del siglo pasado, que se ha utilizado extensivamente para la construcción, análisis y aplicación de los tests psicológicos y educativos. Aunque la TCT surgió en el contexto de la medición de las aptitudes humanas, sus propuestas se extienden a otras áreas. Se asume que la puntuación verdadera de una persona no cambia entre ocasiones, por lo que la variabilidad de las puntuaciones observadas se debe a la influencia de un error de medida aleatorio, no sistemático (producido por causas desconocidas e incontrolables en esa situación). La cantidad de error en cada caso sería la diferencia entre una puntuación observada y la puntuación verdadera. La desviación típica de los errores, denominada error típico de medida (ETM), indica la precisión de las puntuaciones de una persona, es decir, su variabilidad en torno a la puntuación verdadera. El ETM refleja el error que puede esperarse en una puntuación observada. Por ejemplo, si el error pico de medida del peso de un objeto fuese de dos gramos, se puede aventurar que el peso observado diferirá del peso verdadero en más de dos gramos solo la tercera parte de las veces. Aunque la TCT permite estimar el ETM para personas situadas en distintos rangos de la variable (denominados errores típicos de medida condicionales), suele emplearse un único valor aplicable de forma general a todas las puntuaciones de las personas de una población. Obviamente, la valoración del ETM depende de la magnitud de los objetos que se están midiendo: dos gramos es un error despreciable si se pesan objetos muy pesados como sacos de cereales, pero es un error notable si se pesan objetos más livianos como los diamantes. Es decir, el valor del ETM está en las mismas unidades que los objetos medidos y carece de un límite superior estandarizado que facilite su valoración. Por ello, se ha propuesto un índice ce estandarizado de consistencia o precisión denominado coeficiente de fiabilidad que puede oscilar entre 0 y 1.De la TCT se deriva que este coeficiente es el cociente entre la varianza de las puntuaciones verdaderas y la varianza de las puntuaciones observadas en una población de personas. En consecuencia, indica la proporción de la variabilidad de las puntuaciones observadas que no puede atribuirse al error de medida; por ejemplo, si el coeficiente de fiabilidad es de 0,80, se considera que el 20% de la variabilidad observada es espuria



CARACTERÍSTICAS DE LOS TEST

Para comprender mejor este tema será mejor revisar nuestros libros de estadística ya que tres aspectos son fundamentales en la calidad de un test:

1.    Validez: Un test es válido cuando mide lo que intenta medir, lo que conlleva que es válido cuando mide el objeto en la forma apropiada. Tres tipos de procedimientos han sido utilizados en la determinación de la validez de un test:
a.    Validez de Contenido: Evalúa en qué medida el test toma una muestra de conducta típica de la conducta que se pretende medir. En muchas ocasiones lo que se desarrolla como medida de un constructo es más lo que el evaluador cree que el constructo es, que lo que en realidad eso podría ser.
b.    Validez Empírica: Se refiere a la capacidad de un test de hacer predicciones acerca del desempeño de un sujeto en una situación relacionada en la conducta medida.
c.    Validez Estructural: Esta dada por la capacidad de la prueba para medir un rasgo o un constructo teórico. Ejemplo típico del uso de este criterio se encuentra en las pruebas de inteligencia. Los criterios más utilizados para establecer la validez estructural son entre otros, la diferenciación con la edad, las correlaciones del test con otros test, el análisis factorial y la consistencia interna.

2.    Confiabilidad: La confiabilidad de un test se mide por la estabilidad de las puntuaciones de un individuo ante un test, repetida en varias ocasiones y en situaciones diferentes. También puede ser definida con base en el error; cuando menor sea el error, mayor será la fiabilidad y viceversa.
Existen diversos tipos de confiabilidad de un test que varían en los factores que ellos incluyen dentro de la varianza de error.  En un caso (test-retest), abarca las fluctuaciones temporales, en un segundo caso (fiabilidad de la forma equivalente) se refiere a las diferencias entre los conjuntos de elementos paralelos, en el tercer caso (kuder-Richardson) se evalúa el contenido en su muestreo y heterogeneidad. Finalmente, las diferencias entre los puntuadores son medidas mediante la correlación que da el coeficiente de fiabilidad del puntuador.

3.    Normas: Las normas de los test representan la ejecución en el test de la muestra evaluada para tipificarlo. Por ello si la muestra es amplia, las normas serán más apropiadas por un mayor número de sujetos. Pero si es demasiado extensa corre el riesgo de no poder ser tipificada adecuadamente.



RETEST


Resultado de imagen para imagen de un retest          Resultado de imagen para imagen de un retest Repetición del mismo test en una segunda ocasión. Este procedimiento sirve sobretodo para medir la fiabilidad (o confiabilidad) del test en cuestión. El coeficiente de fiabilidad surge de la correlación entre las puntuaciones obtenidas por los mismos sujetos en las dos aplicaciones del test.




Bajo esta denominación se indica que las puntuaciones repetidas X y X’ se han obtenido aplicando el mismo test a los mismos individuos y en las mismas condiciones en dos ocasiones diferentes en el tiempo. Es evidente que, si se determina que el test debe ser aplicado a los mismos individuos y en las mismas condiciones, hay que ser extremadamente cuidadosos en la verificación de que esas premisas se cumplen. Uno de los problemas a los que con mayor frecuencia se hace alusión en la literatura es al posible efecto de aprendizaje del sujeto, y que influirá en sus resultados, cuando realiza por segunda vez la prueba. Por lo tanto una fuente de varianza de error a controlar es el muestreo del tiempo. Este efecto se elimina, o al menos queda paliado, si se deja transcurrir un tiempo suficiente entre ambas aplicaciones de la prueba. Esta solución sin embargo no siempre es plausible, bien porque no se pueda tener disponibles a los mismos sujetos en un tiempo posterior conveniente, o bien porque el rasgo que se está evaluando pueda sufrir también variaciones en ese intervalo de tiempo, por ser función del tiempo (es el caso de las variables evolutivas) o porque se produzca alguna intervención que lo modifique. Si la prueba es fiable, y las condiciones de aplicación de la prueba en las dos ocasiones son esencialmente iguales, se observará una significativa estabilidad en las puntuaciones. En general, se utiliza el coeficiente de correlación producto – momento de Pearson para obtener el coeficiente de confiabilidad test – retest. Actualmente, la expresión “test - retest” se utiliza también para describir la administración de diferentes formas de una misma prueba, en cuyo caso, este coeficiente de confiabilidad se combina con un coeficiente de formas alternas. En cualquier caso, intervienen (1) fluctuaciones en el tiempo y en la situación de prueba, así como (2) cualquier efecto que ejerza la primera prueba sobre la segunda. Cuando es considerable el intervalo de tiempo transcurrido entre las dos administraciones, como por ejemplo, un intervalo de varios meses, un coeficiente test-retest de confiabilidad no sólo reflejaría la consistencia de medición inherente a la prueba, sino también la estabilidad de la característica medida en los examinados


                                                                      VÍDEO







VALIDEZ


Resultado de imagen para validez de criterio
El concepto de validez ha experimentado transformaciones importantes durante el último siglo, provocadas por los diversos objetivos a los que se han destinado los tests. De acuerdo con Kane (2006), entre 1920 y 1950 el uso principal de las pruebas consistió en predecir alguna variable de interés denominada criterio (por ejemplo, el rendimiento laboral o académico). En la actualidad este enfoque sigue siendo de suma importancia cuando se emplean las pruebas para seleccionar a los candidatos más aptos para un empleo, en el programa de admisión, en la adscripción de pacientes a tratamientos, etc. En estos casos, la evaluación de la utilidad de la prueba suele cuantificarse mediante la correlación entre sus puntuaciones y las de alguna medida del criterio (coeficiente de validez). Sin embargo, el éxito de este tipo de justificación depende de la calidad de la medida del criterio, especialmente de su representatividad (por ejemplo, ¿los indicadores para medir el criterio son suficientes y representativos del puesto de trabajo a desempeñar?). De ahí que el énfasis se desplazase a la justificación de que la puntuación en el criterio procedía deuna muestra de indicadores que representase de forma apropiada el dominio o contenido a medir (la totalidad de los indicadores posibles). Por tanto, esta fase inicial de desarrollo del concepto terminó con la propuesta dedos vías regias para establecer la validez de las pruebas: la validación de criterio (la correlación entre las puntuaciones del test y las puntuaciones en el criterio) y la validación de contenido (la justificación de que losítems para medir el criterio son una muestra representativa del contenido a evaluar).La validación de contenido se extendió desde el análisis del criterio al de la validez de los tests predictores: una prueba no puede considerarse válida si los ítems que la componen no muestrean adecuadamente el con-tenido a evaluar. La validación de contenido es un enfoque especialmente fértil cuando las facetas del dominio a medir pueden identificarse y definirse claramente. Es éste el caso de los tests dirigidos a evaluar el rendimiento académico que puede especificarse en función de los objetivos de la instrucción (conceptos y habilidades que un alumno ha de poseer). La metodología de validación descansa fundamentalmente en la evaluación de expertos acerca de la pertinencia y la suficiencia de los ítems, así como de la adecuación de otras características de la prueba como las instrucciones, el tiempo de ejecución, etc. Sin embargo, especificar con precisión el contenido de las manifestaciones de constructos como la extraversión, la memoria de trabajo o la motivación de logro es una tarea más difícil.
De ahí que tanto la validación de contenido como la de criterio se considerasen insuficientes para justificar el uso de pruebas dirigidas a evaluar aptitudes cognitivas o atributos de la personalidad. Esta insatisfacción se concretó en el influyente artículo de Cronbach y Meehl (1955) en el que se propone la validación de constructo como el modo principal de validación. Cronbach (1971) puntualizó que en un test para medir un rasgo de personalidad no hay únicamente un criterio relevante que predecir, ni un contenido que muestrear. Se dispone, por el contrario, de una teoría acerca del rasgo y de sus relaciones con otros constructos y variables. Si se hipotetiza que la puntuación del test es una manifestación válida del atributo, se puede contrastar la asunción analizando sus relaciones con otras variables. En consecuencia, la validación de constructo puede concebirse como un caso particular de la contrastación de las teorías científicas mediante el método hipotético-deductivo. Aunque el usuario no sea, en general, consciente de ello, las técnicas de medida implican teorías (que se suponen suficientemente corroboradas en el momento de usarlas para contrastar hipótesis científicas o prácticas), por lo que deben venir avaladas ellas mismas por teorías cuyo grado de sofisticación dependerá del momento en que se encuentre el programa de investigación en el que han surgido (Delgado y Prieto,
1997). Dado que una teoría postula una red de relaciones entre constructos y atributos observables, no podremos asumir que las puntuaciones son válidas si la teoría es formalmente incorrecta, las predicciones derivadas de la teoría no se cumplen en los datos empíricos o se han violados otros supuestos auxiliares. Así, desde finales del siglo pasado se ha impuesto la concepción de que la validación de constructo constituye un marco integral para obtener pruebas de la validez,
Incluyendo las procedentes de la validación de criterio y de contenido (Messick, 1989). El marco de validación se define a partir de teorías en las que se especifican el significado del constructo a evaluar, sus relaciones con otros constructos, sus manifestaciones y sus potenciales aplicaciones e interpretaciones. Además de las pruebas necesarias para justificar una adecuada representación del constructo, Messick incluyó en el marco de validación la justificación de las consecuencias del uso de los tests (las implicaciones individuales y sociales). Como se comentará más adelante, la inclusión de la denominada validación de las consecuenciases aún objeto de debate. Este breve resumen de la historia del conceptode validez, de la que hemos mencionado algunos hitos importantes, permite comprender los conceptos actuales de validez y validación, de los que destacaremos a continuación sus principales características.
En la actualidad se considera que la validez se refiere al grado en que la evidencia empírica y la teoría apoyan la interpretación de las puntuaciones de los tests relacionada con un uso específico (AERA, APA y NCME,
1999). La validaciones un proceso de acumulación de pruebas para apoyar la interpretación y el uso de laspuntuaciones. Por tanto, el objeto de la validación no es el test, sino la interpretación de sus puntuaciones en relación con un objetivo o uso concreto. El proceso de validación se concibe como un argumento que parte de una definición explícita de las interpretaciones que se proponen, de su fundamentación teórica, de las predicciones derivadas y de los datos que justificarían científicamente su pertinencia. Dado que las predicciones suelen ser múltiples, una única prueba no puede sustentar un juicio favorable sobre la validez de las interpretaciones propuestas. Son necesarias pruebas múltiples y convergentes obtenidas en diferentes estudios. Por ello,se considera que la validación es un proceso dinámico y abierto. Obviamente, los usos y las interpretaciones relacionadas pueden ser muy variados. Por ello, las fuentes de validación son múltiples y su importancia varía en función de los objetivos. Los Standards for educational and psychological testing
(AERA, APA y NCME, 1999)se refieren a las más importantes: el contenido del test,los procesos de respuesta, la estructura interna de la prueba, las relaciones con otras variables y las consecuencias derivadas del uso para el que se proponen.Antes de resumir estos enfoques metodológicos, hemos de puntualizar que reflejan distintas facetas de la validez que las engloba como un único concepto integrador. Por tanto, no es riguroso utilizar términos, como validez predictiva, validez de contenido, factorial, etc., que inducirían a considerar distintos tipos de validez.


Resultado de imagen para validez




CARACTERÍSTICAS DE VALIDEZ

Resultado de imagen para validez  CARACTERISTICAS
El criterio de validez del instrumento tiene que ver con el contenido y su construcción.

-La validez establece la relación del instrumento con las variables que pretenden medir.
-Relaciona los ítems del cuestionario; con los basamentos teóricos y os objetivos de la investigación.
- Este proceso de validación se vincula a las variables entre sí y la hipótesis de la investigación.
-Determinar la validez del instrumento indica someterlo a un proceso de evaluación previa.

MÉTODOS PARA VERIFICAR LA VALIDEZ

VALIDEZ DE CONTENIDO:
VALIDEZ DEL CRITERIO:

VALIDEZ DEL CONSTRUCTO:
MEDIDA DE ESTABILIDAD:
El mismo instrumento se aplica varias veces al mismo grupo.

METODO DE FORMAS ALTERNATIVAS:
Analiza 2 o mas versiones de los instrumentos arrojando medidas similares al aplicarse.

MÉTODOS DE MITADES PARTIDAS:
Requiere solo una aplicación de la medición. El conjunto de ítems es dividido a la mitad y se revisan los resultados.

VALIDEZ SEGÚN PARADIGMA:
En la investigación cualitativa, se procura por la validez en la fase de análisis y de interpretación de datos.
En la investigación cuantitativa la validez se encuentra en la fase de recolección de datos, ya que se piensa que los datos cuantitativos respecto a los procedimientos estadísticos no representan mayor problema.

TRIANGULACIÒN:
Es la combinación de dos o más teorías, fuentes de datos y métodos de investigación, en el estudio de un fenómeno singular.


FACTORES QUE AFECTAN LA VALIDEZ Y LA CONFIABILIDAD


*IMPROVISACIÓN.
*INSTRUMENTOS NO CONTEXTUALIZADOS
*INSTRUMENTOS INADECUADOS A LA PERSONA QUE LOS REALIZA
*CONDICIONES EN QUE SE APLICA EL INSTRUMENTO.
Resultado de imagen para FACTORES QUE AFECTAN LA VALIDEZ Y CONFIABILIDAD



1. VALIDEZ DE CONTENIDO

Se refiere al grado en que el test presenta una muestra adecuada de los contenidos a
los que se refiere, sin omisiones y sin desequilibrios de contenido.
La validez de contenido se utiliza principalmente con tests de rendimiento, y
especialmente con los tests educativos y tests referidos al criterio. En este tipo de tests
se trata de comprobar los conocimientos respecto a una materia o un curso.
La validez de contenido descansa generalmente en el juicio de expertos (métodos de
juicio). Se define como el grado en que los ítems que componen el test representan el
contenido que el test trata de evaluar. Por tanto, la validez de contenido se basa en (a) la
definición precisa del dominio y (b) en el juicio sobre el grado de suficiencia con que
ese dominio se evalúa.

A pesar de que no se utiliza un índice de correlación para expresar la validez de
contenido, existen procedimientos para cuantificarlo. Algunos de estos procedimientos
son:
a) Cálculo de descriptivos: Consiste en calcular la media y la desviación típica de
todos los ítems. A continuación, se determinará una puntuación de corte (o
índice de validez de contenido) que refleje, en base a la evaluación de los
expertos (método de juicio), que la puntuación del ítem es demasiado baja en
relevancia como para ser incluido en la escala. No hay reglas. La decisión
dependerá del juicio propio. Por este motivo, se han de tener en cuenta las
siguientes cuestiones:
Ser capaz de justificar la decisión sobre la puntuación corte.
· Usar la misma puntuación de corte para todos los ítems de la escala,
incluso si la escala es multidimensional.
· No poner una puntuación de corte tan alta que implique eliminar muchos
ítems. (Se podrán eliminar más ítems con el cálculo de la fiabilidad y el
análisis factorial).
b) Índice de validez de contenido (IVC): Lawshe (1975) propuso un índice de
validez basado en la valoración de un grupo de expertos de cada uno de los
ítems del test como innecesario, útil y esencial. El índice se calcula a través de la
siguiente fórmula:
            
              ne - N/2
IVC= -----------------
                  N/2

Donde ne es el número de expertos que han valorado el ítem como esencial y N es el
número total de expertos que han evaluado el ítem.
El IVC oscila entre +1 y -1, siendo las puntuaciones positivas las que indican una
mejor validez de contenido. Un índice IVC = 0 indica que la mitad de los expertos
han evaluado el ítems como esencial. Los ítems con una bajo IVC serán eliminados.
Lawshe (1975) sugiere que un IVC = .29 será adecuado cuando se hayan utilizado 40 expertos, un IVC = .51 será suficiente con 14 expertos, pero un IVC de, al
menos, .99 será necesario cuando el número de expertos sea 7 o inferior.

2. VALIDEZ DE CRITERIO O CRITERIAL

Se refiere al grado en que el test correlaciona con variables ajenas al test (criterios)
con lo que se espera por hipótesis que debe correlacionar de determinado modo. Un
criterio es una variable distinta del test que se toma como referencia, que se sabe que es
un indicador de aquello que el test pretende medir o que se sabe que debe presentar una
relación determinada con lo que el test pretende medir. Se denomina coeficiente de
validez a la correlación del test con un criterio externo.
La elección del criterio es el aspecto crítico en este procedimiento de determinación
de la validez, ya que es muy difícil obtener buenos criterios. Un mismo test puede tener
más de un tipo de validez, es decir puede estar validado con respecto a varios criterios y
los diferentes coeficientes de validez que resultan pueden tener valores diferentes.
Dentro del concepto de validez de criterio cabe distinguir a su vez entre:
- Validez externa y validez interna
- Validez concurrente y validez predictiva
a) Hablamos de validez externa si el test se ha validado con respecto a un criterio
externo, como por ejemplo, una evaluación de rendimiento. La correlación del test
con el criterio da lugar al coeficiente de validez externa. Hace referencia a la
posibilidad de generalización.
Sin embargo, hablaremos de validez interna si se correlaciona un test con otro
con validez reconocida que mide el mismo rasgo; los coeficientes de validez interna
suelen ser menores que los de validez externa y su interpretación es difícil. Para
evitar errores de interpretación se suele correlacionar un test con todos los tests ya
validados que miden lo mismo y calcular un coeficiente de correlación múltiple.
Este coeficiente de validez interna suele alcanzar el valor del coeficiente de validez


externa. Hace referencia a la validez del resultado de la investigación para los
sujetos estudiados.
b) La distinción entre validez concurrente y predictiva se emplea según se utilice un
criterio disponible en el momento (validez concurrente) o cuando se pretenda
predecir la conducta futura de un individuo (validez predictiva). Este tipo de validez
se exige especialmente para los instrumentos que se utilizan en selección y
orientación académica o profesional.

Cálculo del coeficiente de validez
Los procedimientos estadísticos utilizados en la validación referida a un criterio
varían según el número de predictores utilizados (uno o más tests) y el número de
criterios empleados (criterio único y criterio compuesto o múltiple). Martínez Arias
(1995) distingue los siguientes casos:
1. Un único test y un solo criterio: se emplearían los procedimientos de correlación y
regresión lineal simple.
2. Varios predictores (tests) y un solo criterio: se emplea la correlación y regresión
lineal múltiple o el análisis discriminante.
3. Varios predictores y varios criterios: regresión lineal multivariante y la correlación
canónica.

4. VALIDEZ DE CONSTRUCTO

Es un concepto más complejo. Se refiere al grado en que el instrumento de medida
cumple con las hipótesis que cabría esperar para un instrumento de medida diseñado
para medir precisamente aquello que deseaba medir. Se puede considerar un concepto
general que abarcaría los otros tipos de validez.

El término constructo hace referencia a un concepto teórico psicológico
inobservable (ej. la inteligencia, cada factor de personalidad, las aptitudes, las actitudes,
etc.) La definición operativa de estos constructos presenta considerables dificultades en


la práctica, ya que no son directamente observables. Debido a esto, la validación de un
constructo es un proceso laborioso y difícil.

Para la estimación de la validez de constructo se utiliza una metodología variada.
Algunos de los métodos más utilizados son:

1) Métodos correlacionales
Los coeficientes de correlación nos indican la relación del test con el conjunto de
instrumentos de medida y criterios posibles, así como la relación entre el test y el
constructo.

- Correlación del test con un criterio externo
- Correlación test con otros tests que pretenden medir los mismos aspectos o aspectos
semejantes.
- Correlación del test con otros tests que miden características, que nada tienen que
ver con el constructo que subyace al test.

Campbell y Fiske (1959) proponen que se calcule dos tipos de validez:

a) Validez convergente: indica las correlaciones positivas con otros tests que miden lo
mismo.
b) Validez discriminante: indica las correlaciones nulas con tests que miden aspectos
diferentes.

A través de estos dos tipos de validez se podría ir definiendo un constructo
psicológico.

2) Análisis Factorial del test
El análisis factorial permite ordenar los datos y facilitar la interpretación de las
correlaciones. Se espera un factor explicativo del constructo con saturaciones altas del
test y los tests que miden aspectos parecidos, y con saturaciones bajas de aquellos tests
que miden aspectos diferentes.
Con frecuencia se habla de la estructura factorial de un test como validez
estructural o validez factorial

3) Análisis de las diferencias individuales que pone de manifiesto un test
Se refiere al análisis de la distribución de las puntuaciones de test y a comparaciones
de estos aspectos en distintas muestras. Diferentes edades, sexos, niveles profesionales,
etc. Estas comparaciones no son arbitrarias, sino que se derivan de hipótesis que se
hacen en función de los conocimientos que se tiene del constructo.

4) Análisis de los cambios en las diferencias individuales
Se refiere a la investigación diacrónica de los mismos sujetos con el mismo test.
Este tipo de estudios permite conocer la estabilidad del rasgo a lo largo del tiempo y a
través de situaciones.

5) Análisis lógico de los elementos del test
Se refiere al análisis de ítems del test en relación con el constructo. Aquellos ítems
que correlacionan positivamente entre sí, pertenecen al mismo constructo. Esto significa
que el análisis de consistencia interna de un test no sólo aporta datos respecto a su
fiabilidad, sino a su validez. Si se obtiene un coeficiente de consistencia interna bajo,
significa que el test no mide un único constructo.

Todos estos métodos enumerados se complementan entre sí. Se trata de ver el
constructo que trata de medir el test desde diferentes ángulos. Por tanto, no existe una
única medida de la validez de constructo.

5. CUESTIONES RELATIVAS A LA ESTIMACIÓN DE LA VALIDEZ

1. Valor máximo del coeficiente de validez
El valor máximo que puede alcanzar un coeficiente de validez, estimado
mediante la correlación entre el test y el criterio, es menor o igual que su índice de
fiabilidad. Cuanto peor medido esté el criterio, o menos fiables sean las puntuaciones
obtenidas en el criterio, la prueba de rendimiento, peor va a ser la predicción.

2. Validez y longitud del test
Del mismo modo que la fiabilidad de un test mejora aumentando su longitud, con la
validez también ocurre lo mismo. Es decir, cuanto mayor sea el número de ítems, mayor
será la validez del test.

3. Validez y variabilidad del grupo
La correlación entre dos variables aumenta conforme lo hace la variabilidad de la
muestra. Si restringimos el rango de variabilidad de las puntuaciones de una muestra de
sujetos, el coeficiente de validez (la correlación del test con el criterio) será menor de lo

que debería.