
El concepto de validez ha experimentado transformaciones importantes durante el último siglo, provocadas por los diversos objetivos a los que se han destinado los tests. De acuerdo con Kane (2006), entre 1920 y 1950 el uso principal de las pruebas consistió en predecir alguna variable de interés denominada criterio (por ejemplo, el rendimiento laboral o académico). En la actualidad este enfoque sigue siendo de suma importancia cuando se emplean las pruebas para seleccionar a los candidatos más aptos para un empleo, en el programa de admisión, en la adscripción de pacientes a tratamientos, etc. En estos casos, la evaluación de la utilidad de la prueba suele cuantificarse mediante la correlación entre sus puntuaciones y las de alguna medida del criterio (coeficiente de validez). Sin embargo, el éxito de este tipo de justificación depende de la calidad de la medida del criterio, especialmente de su representatividad (por ejemplo, ¿los indicadores para medir el criterio son suficientes y representativos del puesto de trabajo a desempeñar?). De ahí que el énfasis se desplazase a la justificación de que la puntuación en el criterio procedía deuna muestra de indicadores que representase de forma apropiada el dominio o contenido a medir (la totalidad de los indicadores posibles). Por tanto, esta fase inicial de desarrollo del concepto terminó con la propuesta dedos vías regias para establecer la validez de las pruebas: la validación de criterio (la correlación entre las puntuaciones del test y las puntuaciones en el criterio) y la validación de contenido (la justificación de que losítems para medir el criterio son una muestra representativa del contenido a evaluar).La validación de contenido se extendió desde el análisis del criterio al de la validez de los tests predictores: una prueba no puede considerarse válida si los ítems que la componen no muestrean adecuadamente el con-tenido a evaluar. La validación de contenido es un enfoque especialmente fértil cuando las facetas del dominio a medir pueden identificarse y definirse claramente. Es éste el caso de los tests dirigidos a evaluar el rendimiento académico que puede especificarse en función de los objetivos de la instrucción (conceptos y habilidades que un alumno ha de poseer). La metodología de validación descansa fundamentalmente en la evaluación de expertos acerca de la pertinencia y la suficiencia de los ítems, así como de la adecuación de otras características de la prueba como las instrucciones, el tiempo de ejecución, etc. Sin embargo, especificar con precisión el contenido de las manifestaciones de constructos como la extraversión, la memoria de trabajo o la motivación de logro es una tarea más difícil.
De ahí que tanto la
validación de contenido como la de criterio se considerasen insuficientes para
justificar el uso de pruebas dirigidas a evaluar aptitudes cognitivas o
atributos de la personalidad. Esta insatisfacción se concretó en el influyente
artículo de Cronbach y Meehl (1955) en el que se propone la validación de
constructo como el modo principal de validación. Cronbach (1971) puntualizó que
en un test para medir un rasgo de personalidad no hay únicamente un criterio
relevante que predecir, ni un contenido que muestrear. Se dispone, por el
contrario, de una teoría acerca del rasgo y de sus relaciones con otros
constructos y variables. Si se hipotetiza que la puntuación del test es una
manifestación válida del atributo, se puede contrastar la asunción analizando
sus relaciones con otras variables. En consecuencia, la validación de
constructo puede concebirse como un caso particular de la contrastación de las
teorías científicas mediante el método hipotético-deductivo. Aunque el usuario
no sea, en general, consciente de ello, las técnicas de medida implican teorías
(que se suponen suficientemente corroboradas en el momento de usarlas para
contrastar hipótesis científicas o prácticas), por lo que deben venir avaladas
ellas mismas por teorías cuyo grado de sofisticación dependerá del momento en
que se encuentre el programa de investigación en el que han surgido (Delgado y
Prieto,
1997). Dado que una
teoría postula una red de relaciones entre constructos y atributos observables,
no podremos asumir que las puntuaciones son válidas si la teoría es formalmente
incorrecta, las predicciones derivadas de la teoría no se cumplen en los datos
empíricos o se han violados otros supuestos auxiliares. Así, desde finales del
siglo pasado se ha impuesto la concepción de que la validación de constructo
constituye un marco integral para obtener pruebas de la validez,
Incluyendo las procedentes de
la validación de criterio y de contenido (Messick, 1989). El marco de
validación se define a partir de teorías en las que se especifican el
significado del constructo a evaluar, sus relaciones con otros constructos, sus
manifestaciones y sus potenciales aplicaciones e interpretaciones. Además de
las pruebas necesarias para
justificar una adecuada representación del constructo, Messick
incluyó en el marco de validación la justificación de las consecuencias del uso
de los tests (las implicaciones individuales y sociales). Como se comentará más
adelante, la inclusión de la denominada validación de las consecuenciases aún objeto
de debate. Este breve resumen de la historia del conceptode validez, de la que
hemos mencionado algunos hitos importantes, permite comprender los conceptos
actuales de validez y validación, de los que destacaremos a continuación sus
principales características.
En la actualidad se
considera que la validez se refiere al grado en que la evidencia empírica y la
teoría apoyan la interpretación de las puntuaciones de los tests relacionada
con un uso específico (AERA, APA y NCME,
1999). La validaciones un proceso de acumulación de pruebas para apoyar la interpretación y el uso de
laspuntuaciones. Por tanto, el objeto de la validación no es el test, sino la
interpretación de sus puntuaciones en relación con un objetivo o uso concreto.
El proceso de validación se concibe como un argumento que parte de una definición
explícita de las interpretaciones que se proponen, de su fundamentación teórica,
de las predicciones derivadas y de los datos que justificarían científicamente
su pertinencia. Dado que las predicciones suelen ser múltiples, una única prueba
no puede sustentar un juicio favorable sobre la validez de las interpretaciones
propuestas. Son necesarias pruebas múltiples y convergentes obtenidas en
diferentes estudios. Por ello,se considera que la validación es un proceso dinámico
y abierto. Obviamente, los usos y las interpretaciones relacionadas pueden ser
muy variados. Por ello, las fuentes de validación son múltiples y su importancia
varía en función de los objetivos. Los Standards for educational and
psychological testing
(AERA, APA y NCME,
1999)se refieren a las más importantes: el contenido del test,los procesos de
respuesta, la estructura interna de la prueba, las relaciones con otras
variables y las consecuencias derivadas del uso para el que se proponen.Antes
de resumir estos enfoques metodológicos, hemos de puntualizar que reflejan
distintas facetas de la validez que las engloba como un único concepto
integrador. Por tanto, no es riguroso utilizar términos, como validez predictiva,
validez de contenido, factorial, etc., que inducirían a considerar distintos
tipos de validez.

CARACTERÍSTICAS DE VALIDEZ

El criterio de
validez del instrumento tiene que ver con el contenido y su construcción.
-La validez
establece la relación del instrumento con las variables que pretenden medir.
-Relaciona los
ítems del cuestionario; con los basamentos teóricos y os objetivos de la
investigación.
- Este proceso de
validación se vincula a las variables entre sí y la hipótesis de la
investigación.
-Determinar la
validez del instrumento indica someterlo a un proceso de evaluación previa.
MÉTODOS PARA VERIFICAR
LA VALIDEZ
VALIDEZ DE
CONTENIDO:
VALIDEZ DEL
CRITERIO:
VALIDEZ DEL CONSTRUCTO:
MEDIDA DE
ESTABILIDAD:
El mismo
instrumento se aplica varias veces al mismo grupo.
METODO DE FORMAS
ALTERNATIVAS:
Analiza 2 o mas
versiones de los instrumentos arrojando medidas similares al aplicarse.
MÉTODOS DE MITADES
PARTIDAS:
Requiere solo una
aplicación de la medición. El conjunto de ítems es dividido a la mitad y se
revisan los resultados.
VALIDEZ SEGÚN
PARADIGMA:
En la
investigación cualitativa, se procura por la validez en la fase de análisis y
de interpretación de datos.
En la
investigación cuantitativa la validez se encuentra en la fase de recolección de
datos, ya que se piensa que los datos cuantitativos respecto a los
procedimientos estadísticos no representan mayor problema.
TRIANGULACIÒN:
Es la
combinación de dos o más teorías, fuentes de datos y métodos de investigación,
en el estudio de un fenómeno singular.
FACTORES QUE
AFECTAN LA VALIDEZ Y LA CONFIABILIDAD
*IMPROVISACIÓN.
*INSTRUMENTOS NO
CONTEXTUALIZADOS
*INSTRUMENTOS
INADECUADOS A LA PERSONA QUE LOS REALIZA
*CONDICIONES EN
QUE SE APLICA EL INSTRUMENTO.

1. VALIDEZ DE
CONTENIDO
Se refiere al grado en que el
test presenta una muestra adecuada de los contenidos a
los que se refiere, sin omisiones
y sin desequilibrios de contenido.
La validez de contenido se
utiliza principalmente con tests de rendimiento, y
especialmente con los tests
educativos y tests referidos al criterio. En este tipo de tests
se trata de comprobar los
conocimientos respecto a una materia o un curso.
La validez de contenido descansa
generalmente en el juicio de expertos (métodos de
juicio). Se define como el grado
en que los ítems que componen el test representan el
contenido que el test trata de
evaluar. Por tanto, la validez de contenido se basa en (a) la
definición precisa del dominio y
(b) en el juicio sobre el grado de suficiencia con que
ese dominio se evalúa.
A pesar de que no se utiliza un
índice de correlación para expresar la validez de
contenido, existen procedimientos
para cuantificarlo. Algunos de estos procedimientos
son:
a) Cálculo de
descriptivos: Consiste
en calcular la media y la desviación típica de
todos los ítems. A continuación,
se determinará una puntuación de corte (o
índice de validez de contenido)
que refleje, en base a la evaluación de los
expertos (método de juicio), que
la puntuación del ítem es demasiado baja en
relevancia como para ser incluido
en la escala. No hay reglas. La decisión
dependerá del juicio propio. Por
este motivo, se han de tener en cuenta las
siguientes cuestiones:
Ser capaz de justificar la
decisión sobre la puntuación corte.
· Usar la misma puntuación de
corte para todos los ítems de la escala,
incluso si la escala es
multidimensional.
· No poner una puntuación de
corte tan alta que implique eliminar muchos
ítems. (Se podrán eliminar más
ítems con el cálculo de la fiabilidad y el
análisis factorial).
b) Índice de
validez de contenido (IVC): Lawshe (1975) propuso un índice de
validez basado en la valoración
de un grupo de expertos de cada uno de los
ítems del test como innecesario,
útil y esencial. El índice se calcula a través de la
siguiente fórmula:
ne - N/2
IVC= -----------------
N/2
Donde ne es el número de
expertos que han valorado el ítem como esencial y N es el
número total de expertos que han
evaluado el ítem.
El IVC oscila entre +1 y -1,
siendo las puntuaciones positivas las que indican una
mejor validez de contenido. Un
índice IVC = 0 indica que la mitad de los expertos
han evaluado el ítems como
esencial. Los ítems con una bajo IVC serán eliminados.
Lawshe (1975) sugiere que un IVC
= .29 será adecuado cuando se hayan utilizado 40 expertos, un IVC = .51 será
suficiente con 14 expertos, pero un IVC de, al
menos, .99 será necesario cuando el número de
expertos sea 7 o inferior.
2. VALIDEZ DE
CRITERIO O CRITERIAL
Se refiere al grado en que el
test correlaciona con variables ajenas al test (criterios)
con lo que se espera por
hipótesis que debe correlacionar de determinado modo. Un
criterio es una variable
distinta del test que se toma como referencia, que se sabe que es
un indicador de aquello que el
test pretende medir o que se sabe que debe presentar una
relación determinada con lo que
el test pretende medir. Se denomina coeficiente de
validez a la correlación
del test con un criterio externo.
La elección del criterio es el
aspecto crítico en este procedimiento de determinación
de la validez, ya que es muy
difícil obtener buenos criterios. Un mismo test puede tener
más de un tipo de validez, es
decir puede estar validado con respecto a varios criterios y
los diferentes coeficientes de
validez que resultan pueden tener valores diferentes.
Dentro del concepto de validez de
criterio cabe distinguir a su vez entre:
- Validez externa y validez interna
- Validez concurrente y
validez predictiva
a) Hablamos de validez
externa si el test se ha validado con respecto a un criterio
externo, como por ejemplo, una
evaluación de rendimiento. La correlación del test
con el criterio da lugar al
coeficiente de validez externa. Hace referencia a la
posibilidad de generalización.
Sin embargo, hablaremos de validez
interna si se correlaciona un test con otro
con validez reconocida que mide
el mismo rasgo; los coeficientes de validez interna
suelen ser menores que los de
validez externa y su interpretación es difícil. Para
evitar errores de interpretación
se suele correlacionar un test con todos los tests ya
validados que miden lo mismo y
calcular un coeficiente de correlación múltiple.
Este coeficiente de validez interna
suele alcanzar el valor del coeficiente de validez
externa. Hace referencia a la
validez del resultado de la investigación para los
sujetos estudiados.
b) La distinción entre validez
concurrente y predictiva se emplea según se utilice un
criterio disponible en el momento
(validez concurrente) o cuando se pretenda
predecir la conducta futura de un
individuo (validez predictiva). Este tipo de validez
se exige especialmente para los
instrumentos que se utilizan en selección y
orientación académica o
profesional.
Cálculo del
coeficiente de validez
Los procedimientos estadísticos
utilizados en la validación referida a un criterio
varían según el número de
predictores utilizados (uno o más tests) y el número de
criterios empleados (criterio
único y criterio compuesto o múltiple). Martínez Arias
(1995) distingue los siguientes
casos:
1. Un único test y un solo
criterio: se emplearían los procedimientos de correlación y
regresión lineal simple.
2. Varios predictores (tests)
y un solo criterio: se emplea la correlación y regresión
lineal múltiple o el análisis
discriminante.
3. Varios predictores y varios
criterios: regresión lineal multivariante y la correlación
canónica.
4. VALIDEZ DE
CONSTRUCTO
Es un concepto más complejo. Se
refiere al grado en que el instrumento de medida
cumple con las hipótesis que
cabría esperar para un instrumento de medida diseñado
para medir precisamente aquello
que deseaba medir. Se puede considerar un concepto
general que abarcaría los otros
tipos de validez.
El término constructo hace
referencia a un concepto teórico psicológico
inobservable (ej. la
inteligencia, cada factor de personalidad, las aptitudes, las actitudes,
etc.) La definición operativa de
estos constructos presenta considerables dificultades en
la práctica, ya que no son
directamente observables. Debido a esto, la validación de un
constructo es un proceso
laborioso y difícil.
Para la estimación de la validez
de constructo se utiliza una metodología variada.
Algunos de los métodos más
utilizados son:
1) Métodos
correlacionales
Los coeficientes de correlación
nos indican la relación del test con el conjunto de
instrumentos de medida y
criterios posibles, así como la relación entre el test y el
constructo.
- Correlación del test con un
criterio externo
- Correlación test con otros
tests que pretenden medir los mismos aspectos o aspectos
semejantes.
- Correlación del test con otros
tests que miden características, que nada tienen que
ver con el constructo que subyace
al test.
Campbell y Fiske (1959) proponen
que se calcule dos tipos de validez:
a) Validez convergente:
indica las correlaciones positivas con otros tests que miden lo
mismo.
b) Validez discriminante:
indica las correlaciones nulas con tests que miden aspectos
diferentes.
A través de estos dos tipos de
validez se podría ir definiendo un constructo
psicológico.
2) Análisis
Factorial del test
El análisis factorial permite
ordenar los datos y facilitar la interpretación de las
correlaciones. Se espera un
factor explicativo del constructo con saturaciones altas del
test y los tests que miden
aspectos parecidos, y con saturaciones bajas de aquellos tests
que miden aspectos diferentes.
Con frecuencia se habla de la
estructura factorial de un test como validez
estructural o
validez factorial
3) Análisis de
las diferencias individuales que pone de manifiesto un test
Se refiere al análisis de la
distribución de las puntuaciones de test y a comparaciones
de estos aspectos en distintas
muestras. Diferentes edades, sexos, niveles profesionales,
etc. Estas comparaciones no son
arbitrarias, sino que se derivan de hipótesis que se
hacen en función de los
conocimientos que se tiene del constructo.
4) Análisis de
los cambios en las diferencias individuales
Se refiere a la investigación
diacrónica de los mismos sujetos con el mismo test.
Este tipo de estudios permite
conocer la estabilidad del rasgo a lo largo del tiempo y a
través de situaciones.
5) Análisis
lógico de los elementos del test
Se refiere al análisis de ítems
del test en relación con el constructo. Aquellos ítems
que correlacionan positivamente
entre sí, pertenecen al mismo constructo. Esto significa
que el análisis de consistencia
interna de un test no sólo aporta datos respecto a su
fiabilidad, sino a su validez. Si
se obtiene un coeficiente de consistencia interna bajo,
significa que el test no mide un
único constructo.
Todos estos métodos enumerados se
complementan entre sí. Se trata de ver el
constructo que trata de medir el
test desde diferentes ángulos. Por tanto, no existe una
única medida de la validez de
constructo.
5. CUESTIONES
RELATIVAS A LA ESTIMACIÓN DE LA VALIDEZ
1. Valor máximo
del coeficiente de validez
El valor máximo que puede
alcanzar un coeficiente de validez, estimado
mediante la correlación entre el
test y el criterio, es menor o igual que su índice de
fiabilidad. Cuanto peor medido
esté el criterio, o menos fiables sean las puntuaciones
obtenidas en el criterio, la prueba de rendimiento,
peor va a ser la predicción.
2. Validez y
longitud del test
Del mismo modo que la fiabilidad
de un test mejora aumentando su longitud, con la
validez también ocurre lo mismo.
Es decir, cuanto mayor sea el número de ítems, mayor
será la validez del test.
3. Validez y
variabilidad del grupo
La correlación entre dos
variables aumenta conforme lo hace la variabilidad de la
muestra. Si restringimos el rango
de variabilidad de las puntuaciones de una muestra de
sujetos, el coeficiente de
validez (la correlación del test con el criterio) será menor de lo
que debería.
No hay comentarios.:
Publicar un comentario