Medición en educación: validez, conceptos y procedimientos de estimación

Diapositivas de la Universidad Europea sobre Medición en educación. El Pdf explora el concepto de validez en la medición educativa, sus tipos (contenido, criterio, constructo) y los procedimientos de estimación, siendo un material didáctico para el ámbito universitario.

Ver más

33 páginas

Ve más allá
Medición en educación
Prof. Dr. Alejandro Sal de Rellán Guerra
© Copyright Universidad Europea. Todos los derechos reservados
Tema 12. Validez: concepto y procedimientos de estimación
1. Conceptos y tipos de validez
3.1. Validez de contenido
3.2. Validez de criterio
3.3. Validez de constructo
2. Procedimientos para estimar la validez de contenido
2.1. Kappa de Cohen
2.2. Kappa de Fleiss
2.3. Kappa Ponderado
2.4. W de Kendall
2.5. Coeficiente de concordancia
2.6. Coeficiente de Correlación Intraclase (CCI)
3. Procedimientos para estimar la validez de un criterio
3.1. Validez de un criterio concurrente
3.2. Validez de un criterio predictivo
4. Diferencia entre fiabilidad y validez
ÍNDICE

Visualiza gratis el PDF completo

Regístrate para acceder al documento completo y transformarlo con la IA.

Vista previa

Concepto y tipos de validez

veUe
Concepto y tipos de
validezConcepto y tipos de validez
· Grado en que un instrumento de medición (examen, prueba, escala de calificación, encuesta, etc.) mide el atributo o constructo que
pretende medir.
· Garantiza que las mediciones realizadas sean precisas, confiables y representativas del concepto/habilidad que se quiere
medir.
· Es fundamental que las pruebas o evaluaciones sean válidas para que los resultados sean útiles y tengan sentido en términos
educativos.
Por ejemplo, si una prueba se diseña para medir la habilidad matemática, pero solo mide la velocidad de cálculo, entonces la prueba no será
valida.
· Existen diferentes tipos de validez
(AERA et al.,2018):
o Validez de contenido
o Validez de criterio
o Validez de constructo

Validez de contenido

veConcepto y tipos de validez
Validez de contenido
· Grado en que un instrumento abarca adecuadamente el conjunto completo de habilidades/atributos que se supone que debe
medir.
Es una evaluación del contenido del instrumento en relación con el constructo o atributo que se quiere evaluar.
· Implica que el instrumento debe incluir una muestra adecuada de los contenidos o aspectos que se pretenden medir y que no
debe incluir elementos irrelevantes o no relacionados con el constructo en cuestión.
· Con la validez de
contenido se busca
evaluar
Definición del Constructo en Términos Operativos.
Se verifica si la manera en que se han redactado los items o preguntas del instrumento se ajusta al significado y las
características del constructo tal como se ha teorizado.
Representación del Constructo.
Se analiza si los ítems de la prueba son una muestra representativa de las conductas, habilidades o atributos
asociados a la definición operativa del constructo
Relevancia de los Indicadores.
Se evalúa si los ítems de la prueba son pertinentes, relevantes y tienen sentido para la población a la que se está
aplicando el instrumento, de manera que la medición sea significativa para los evaluados.
: Procedimiento de Construcción de la Prueba.
Se analiza el proceso de construcción del instrumento

Validez de criterio

veConcepto y tipos de validez
Validez de criterio
· Evalúa el grado en que los resultados se correlacionan con un criterio externo o estándar que se considera válido y
objetivo.
· Se enfoca en determinar si los resultados obtenidos en el instrumento son precisos al predecir o estimar el desempeño
de un sujeto en una medida o comportamiento externo que se considera relevante y confiable.
El criterio externo puede ser cualquier medida objetiva o estándar que esté relacionada con el constructo y que ya esté
validada.

Validez de constructo

veConcepto y tipos de validez
Validez de constructo
" La validez de constructo es la validez de la estructura interna del constructo.
" Se enfoca en la correspondencia entre los resultados obtenidos en el instrumento y la teoría/concepto subyacente que
se quiere medir.
Analiza y evalúa la estructura de un instrumento de medición para asegurarse de que los ítems midan de manera
coherente y precisa el constructo.

Procedimientos para estimar la validez de contenido

veUe
Procedimientos
para estimar la
validez de
contenidoProcedimientos para estimar la validez de contenido
· Para llevar a cabo esta validez es necesario realizar un procedimiento basado en el juicio de expertos:
Evaluar los ítems o preguntas del instrumento por parte de un panel de expertos en el área.
· El número de expertos necesarios puede variar dependiendo del contexto:
Entre 3 y 20 expertos (Gable y Wolf, 2012).
Entre 5 y 10 expertos (Almanasreh et al., 2019).
· Los expertos deben tener un conocimiento sólido y especializado en el contenido que define el constructo.
Su experiencia en el área es fundamental para evaluar adecuadamente la relevancia y representatividad de los ítems.

Aspectos evaluables en la validez de contenido

veProcedimientos para estimar la validez de contenido
· Para realizar esta evaluación se deben tener en consideración varios aspectos clave, que incluyen:

Aspectos
evaluables
Descripción
Relación con la
definición del
Constructo
Los expertos deben determinar si el contenido de los ítems está
relacionado y coherente con la definición teórica o conceptual del
constructo que se quiere medir.
Representatividad
del constructo
Los expertos deben evaluar en que medida los items representan
adecuadamente las diferentes facetas o dimensiones del constructo.
Es importante que los items cubran de manera completa y equilibrada
todas las áreas relevantes del constructo.
Relevancia de los
Ítems
Los expertos deben determinar si los items son realmente importantes y
pertinentes para medir el constructo en cuestión. Esto implica asegurarse
de que los ítems sean significativos y relevantes para la población
objetivo y que sean capaces de capturar variaciones significativas en el
constructo.
Claridad de la
redacción
Los expertos deben evaluar la claridad y comprensibilidad de la
redacción de los ítems. Es importante que los ítems sean redactados de
manera clara y precisa para que los evaluados puedan entenderlos
correctamente y responder de manera adecuada.

Estadísticos para el grado de acuerdo entre jueces

veProcedimientos para estimar la validez de contenido
· Una vez valoradas estas cuestiones. Se debe evaluar el grado de acuerdo entre jueces o evaluadores.
· Para ello, existen diferentes estadísticos atendiendo al número de jueces y al tipo de respuesta:

EstadísticoN.º de juecesTipo de respuesta
Kappa de Cohen2Nominal
Kappa de Fleiss+ de 2Nominal
Kappa Ponderado2Ordinal
W de Kendall+ de 2Ordinal
Coeficiente de Concordancia2Intervalo
Coeficiente de Correlación
Intraclase
+2Intervalo

Kappa de Cohen vs Kappa de Fleiss

veProcedimientos para estimar la validez de contenido
Kappa de Cohen vs Kappa de Fleiss
Kappa de Cohen
Dos jueces.
Cuando se están categorizando datos en categorías
mutuamente excluyentes (ejemplo: Sí o No).
· Variables Nominales
Puede tener un valor entre -1 y 1, donde -1
representa un desacuerdo total, 0 indica un
acuerdo igual al esperado por azar, y 1 representa
un acuerdo perfecto.
Kappa de Fleiss
Más de dos jueces
Cuando se están categorizando datos en múltiples categorías.

Estadístico KappaInterpretación
<0,00Pobre
0,00-0,20Escaso
0,21-0,40Justo
0,41-0,60Moderado
0,61-0,80Importante
0,81-1,00Casi perfecto/Perfecto

Ejemplo de Kappa de Cohen

veProcedimientos para estimar la validez de contenido
Kappa de Cohen. Ejemplo
1º Descargar el paquete
meddecide.
meddecide - Functions for Medical Decision in ClinicoPath jamovi
Module 0.0.2
Serdar Balci
This module contains functions for interobserver and intraobserver reliability and decision tests
(sensitivity, specificity, PPV, NPV). Power analyses are available.
OCULTAR
ELIMINAR
· 2º Pasos.
3º Interpretación.
Interrater Reliability
1
Interrater Reliability
Method
Cohen's Kappa for 2 Raters
Weights: unweighted)
Ja MortalitySyr
Raters
Rater 3
>
Rater 1
Rater A
Rater 2
Rater B
meddecide
New Test
Agreement %
92
Golden Standart
Agreement
MeasurementA
MeasurementB
Z
13.0
Disease Status
p-value
<. 001
Subjects
249
Raters
2
Kappa
0.821
Interrater Reliability

Ejemplo de Kappa de Fleiss

ueProcedimientos para estimar la validez de contenido
Kappa de Fleiss. Ejemplo
1º Descargar el paquete
meddecide.
meddecide - Functions for Medical Decision in ClinicoPath jamovi
Module 0.0.2
Serdar Balci
This module contains functions for interobserver and intraobserver reliability and decision tests
(sensitivity, specificity, PPV, NPV). Power analyses are available.
OCULTAR
ELIMINAR
= 2º Pasos.
Interrater Reliability
>
Ja MortalitySyr
Raters
Rater A
Rater 1
Rater B
Rater 2
New Test
Rater 3
Golden Standart
MeasurementA
MeasurementB
a Disease Status
...
Measurement1
Table
Frequency Tables
Tests
Exact Kappa (>=3 Variables)
Weighted Kappa (Ordinal Variables only)
Unweighted
V
· 3º Interpretación.
Interrater Reliability
Method
Fleiss' Kappa for m Raters
Subjects
249
Raters
3
Agreement %
76
Kappa
0.658
Z
18.0
p-value
<. 001
Q

Análisis de resultados en Kappa de Fleiss

veProcedimientos para estimar la validez de contenido
Kappa de Fleiss. Ejemplo
Sería interesante analizar los resultados en profundidad por si podemos mejorar la fiabilidad y validez del test.
· Para ello podemos pichar en la tabla de frecuencias y valorar las respuestas de los expertos:
Interrater Reliability
>
Ja Mortalitysyr
a
Raters
un Rater A
>
Rater 1
Rater B
Rater 2
New Test
Rater 3
Golden Standart
MeasurementA
MeasurementB
a Disease Status
...
Measurement 1
Table
Frequency Tables

Rater 1Rater 2Rater 3n
1 NegativeNegativeNegative66
2 NegativeNegativePositive8
3 NegativePositiveNegative6
4 PositiveNegativePositive14
5 PositivePositiveNegative31
6 PositivePositivePositive124
7NegativePositive1

Kappa Ponderado vs W de Kendal

veProcedimientos para estimar la validez de contenido
Kappa Ponderado vs W de Kendal
Kappa Ponderado
W de Kendal
Dos jueces.
Más de dos jueces
· Variables Ordinales
Puede tener un valor entre -1 y 1, donde 1
representa un acuerdo perfecto en el
ordenamiento y -1 representa un acuerdo
perfecto en el ordenamiento inverso.

Estadístico KappaInterpretación
<0,00Pobre
0,00-0,20Escaso
0,21-0,40Justo
0,41-0,60Moderado
0,61-0,80Importante
0,81-1,00Casi perfecto/Perfecto

Ejemplo de Kappa Ponderado

veProcedimientos para estimar la validez de contenido
Kappa Ponderado. Ejemplo
1º Descargar el paquete
meddecide.
Interrater Reliability
Ja MortalitySyr
1
Rater A
Rater B
New Test
Golden Standart
MeasurementA
MeasurementB
Disease Status
..
Measurement1
Table
Frequency Tables
2º Pasos.
Tests
Exact Kappa (>=3 Variables)
Weighted Kappa (Ordinal Variables only)
Unwe
Tests
Exact Kappa (>=3 Variables)
Weighted Kappa (Ordinal Variables only)
Squared
V
meddecide - Functions for Medical Decision in ClinicoPath jamovi
Module 0.0.2
Serdar Balci
This module contains functions for interobserver and intraobserver reliability and decision tests
(sensitivity, specificity, PPV, NPV). Power analyses are available.
OCULTAR
ELIMINAR
3º Interpretación.
Interrater Reliability
Method
Cohen's Kappa for 2 Raters (Weights: squared)
Subjects
250
Raters
2
Agreement %
59
Kappa
0.401
Z
6.38
<. 001
p-value
ve

¿Non has encontrado lo que buscabas?

Explora otros temas en la Algor library o crea directamente tus materiales con la IA.