Medición en educación: validez, conceptos y procedimientos de estimación

Diapositivas de la Universidad Europea sobre Medición en educación. El Pdf explora el concepto de validez en la medición educativa, sus tipos (contenido, criterio, constructo) y los procedimientos de estimación, siendo un material didáctico para el ámbito universitario.

33 páginas

Ve más allá

Medición en educación

Prof. Dr. Alejandro Sal de Rellán Guerra

Tema 12. Validez: concepto y procedimientos de estimación

1. Conceptos y tipos de validez

3.1. Validez de contenido

3.2. Validez de criterio

3.3. Validez de constructo

2. Procedimientos para estimar la validez de contenido

2.1. Kappa de Cohen

2.2. Kappa de Fleiss

2.3. Kappa Ponderado

2.4. W de Kendall

2.5. Coeficiente de concordancia

2.6. Coeficiente de Correlación Intraclase (CCI)

3. Procedimientos para estimar la validez de un criterio

3.1. Validez de un criterio concurrente

3.2. Validez de un criterio predictivo

4. Diferencia entre fiabilidad y validez

ÍNDICE

Vista previa

Concepto y tipos de validez

veUe
Concepto y tipos de
validezConcepto y tipos de validez
· Grado en que un instrumento de medición (examen, prueba, escala de calificación, encuesta, etc.) mide el atributo o constructo que
pretende medir.
· Garantiza que las mediciones realizadas sean precisas, confiables y representativas del concepto/habilidad que se quiere
medir.
· Es fundamental que las pruebas o evaluaciones sean válidas para que los resultados sean útiles y tengan sentido en términos
educativos.
Por ejemplo, si una prueba se diseña para medir la habilidad matemática, pero solo mide la velocidad de cálculo, entonces la prueba no será
valida.
· Existen diferentes tipos de validez
(AERA et al.,2018):
o Validez de contenido
o Validez de criterio
o Validez de constructo

Validez de contenido

veConcepto y tipos de validez
Validez de contenido
· Grado en que un instrumento abarca adecuadamente el conjunto completo de habilidades/atributos que se supone que debe
medir.
Es una evaluación del contenido del instrumento en relación con el constructo o atributo que se quiere evaluar.
· Implica que el instrumento debe incluir una muestra adecuada de los contenidos o aspectos que se pretenden medir y que no
debe incluir elementos irrelevantes o no relacionados con el constructo en cuestión.
· Con la validez de
contenido se busca
evaluar
Definición del Constructo en Términos Operativos.
Se verifica si la manera en que se han redactado los items o preguntas del instrumento se ajusta al significado y las
características del constructo tal como se ha teorizado.
Representación del Constructo.
Se analiza si los ítems de la prueba son una muestra representativa de las conductas, habilidades o atributos
asociados a la definición operativa del constructo
Relevancia de los Indicadores.
Se evalúa si los ítems de la prueba son pertinentes, relevantes y tienen sentido para la población a la que se está
aplicando el instrumento, de manera que la medición sea significativa para los evaluados.
: Procedimiento de Construcción de la Prueba.
Se analiza el proceso de construcción del instrumento

Validez de criterio

veConcepto y tipos de validez
Validez de criterio
· Evalúa el grado en que los resultados se correlacionan con un criterio externo o estándar que se considera válido y
objetivo.
· Se enfoca en determinar si los resultados obtenidos en el instrumento son precisos al predecir o estimar el desempeño
de un sujeto en una medida o comportamiento externo que se considera relevante y confiable.
El criterio externo puede ser cualquier medida objetiva o estándar que esté relacionada con el constructo y que ya esté
validada.

Validez de constructo

veConcepto y tipos de validez
Validez de constructo
" La validez de constructo es la validez de la estructura interna del constructo.
" Se enfoca en la correspondencia entre los resultados obtenidos en el instrumento y la teoría/concepto subyacente que
se quiere medir.
Analiza y evalúa la estructura de un instrumento de medición para asegurarse de que los ítems midan de manera
coherente y precisa el constructo.

Procedimientos para estimar la validez de contenido

veUe
Procedimientos
para estimar la
validez de
contenidoProcedimientos para estimar la validez de contenido
· Para llevar a cabo esta validez es necesario realizar un procedimiento basado en el juicio de expertos:
Evaluar los ítems o preguntas del instrumento por parte de un panel de expertos en el área.
· El número de expertos necesarios puede variar dependiendo del contexto:
Entre 3 y 20 expertos (Gable y Wolf, 2012).
Entre 5 y 10 expertos (Almanasreh et al., 2019).
· Los expertos deben tener un conocimiento sólido y especializado en el contenido que define el constructo.
Su experiencia en el área es fundamental para evaluar adecuadamente la relevancia y representatividad de los ítems.

Aspectos evaluables en la validez de contenido

veProcedimientos para estimar la validez de contenido
· Para realizar esta evaluación se deben tener en consideración varios aspectos clave, que incluyen:

Aspectos evaluables	Descripción
Relación con la definición del Constructo	Los expertos deben determinar si el contenido de los ítems está relacionado y coherente con la definición teórica o conceptual del constructo que se quiere medir.
Representatividad del constructo	Los expertos deben evaluar en que medida los items representan adecuadamente las diferentes facetas o dimensiones del constructo. Es importante que los items cubran de manera completa y equilibrada todas las áreas relevantes del constructo.
Relevancia de los Ítems	Los expertos deben determinar si los items son realmente importantes y pertinentes para medir el constructo en cuestión. Esto implica asegurarse de que los ítems sean significativos y relevantes para la población objetivo y que sean capaces de capturar variaciones significativas en el constructo.
Claridad de la redacción	Los expertos deben evaluar la claridad y comprensibilidad de la redacción de los ítems. Es importante que los ítems sean redactados de manera clara y precisa para que los evaluados puedan entenderlos correctamente y responder de manera adecuada.

Estadísticos para el grado de acuerdo entre jueces

veProcedimientos para estimar la validez de contenido
· Una vez valoradas estas cuestiones. Se debe evaluar el grado de acuerdo entre jueces o evaluadores.
· Para ello, existen diferentes estadísticos atendiendo al número de jueces y al tipo de respuesta:

Estadístico	N.º de jueces	Tipo de respuesta
Kappa de Cohen	2	Nominal
Kappa de Fleiss	+ de 2	Nominal
Kappa Ponderado	2	Ordinal
W de Kendall	+ de 2	Ordinal
Coeficiente de Concordancia	2	Intervalo
Coeficiente de Correlación Intraclase	+2	Intervalo

Kappa de Cohen vs Kappa de Fleiss

veProcedimientos para estimar la validez de contenido
Kappa de Cohen vs Kappa de Fleiss
Kappa de Cohen
Dos jueces.
Cuando se están categorizando datos en categorías
mutuamente excluyentes (ejemplo: Sí o No).
· Variables Nominales
Puede tener un valor entre -1 y 1, donde -1
representa un desacuerdo total, 0 indica un
acuerdo igual al esperado por azar, y 1 representa
un acuerdo perfecto.
Kappa de Fleiss
Más de dos jueces
Cuando se están categorizando datos en múltiples categorías.

Estadístico Kappa	Interpretación
<0,00	Pobre
0,00-0,20	Escaso
0,21-0,40	Justo
0,41-0,60	Moderado
0,61-0,80	Importante
0,81-1,00	Casi perfecto/Perfecto

Ejemplo de Kappa de Cohen

veProcedimientos para estimar la validez de contenido
Kappa de Cohen. Ejemplo
1º Descargar el paquete
meddecide.
meddecide - Functions for Medical Decision in ClinicoPath jamovi
Module 0.0.2
Serdar Balci
This module contains functions for interobserver and intraobserver reliability and decision tests
(sensitivity, specificity, PPV, NPV). Power analyses are available.
OCULTAR
ELIMINAR
· 2º Pasos.
3º Interpretación.
Interrater Reliability
1
Interrater Reliability
Method
Cohen's Kappa for 2 Raters
Weights: unweighted)
Ja MortalitySyr
Raters
Rater 3
>
Rater 1
Rater A
Rater 2
Rater B
meddecide
New Test
Agreement %
92
Golden Standart
Agreement
MeasurementA
MeasurementB
Z
13.0
Disease Status
p-value
<. 001
Subjects
249
Raters
2
Kappa
0.821
Interrater Reliability

Ejemplo de Kappa de Fleiss

ueProcedimientos para estimar la validez de contenido
Kappa de Fleiss. Ejemplo
1º Descargar el paquete
meddecide.
meddecide - Functions for Medical Decision in ClinicoPath jamovi
Module 0.0.2
Serdar Balci
This module contains functions for interobserver and intraobserver reliability and decision tests
(sensitivity, specificity, PPV, NPV). Power analyses are available.
OCULTAR
ELIMINAR
= 2º Pasos.
Interrater Reliability
>
Ja MortalitySyr
Raters
Rater A
Rater 1
Rater B
Rater 2
New Test
Rater 3
Golden Standart
MeasurementA
MeasurementB
a Disease Status
...
Measurement1
Table
Frequency Tables
Tests
Exact Kappa (>=3 Variables)
Weighted Kappa (Ordinal Variables only)
Unweighted
V
· 3º Interpretación.
Interrater Reliability
Method
Fleiss' Kappa for m Raters
Subjects
249
Raters
3
Agreement %
76
Kappa
0.658
Z
18.0
p-value
<. 001
Q

Análisis de resultados en Kappa de Fleiss

veProcedimientos para estimar la validez de contenido
Kappa de Fleiss. Ejemplo
Sería interesante analizar los resultados en profundidad por si podemos mejorar la fiabilidad y validez del test.
· Para ello podemos pichar en la tabla de frecuencias y valorar las respuestas de los expertos:
Interrater Reliability
>
Ja Mortalitysyr
a
Raters
un Rater A
>
Rater 1
Rater B
Rater 2
New Test
Rater 3
Golden Standart
MeasurementA
MeasurementB
a Disease Status
...
Measurement 1
Table
Frequency Tables

Rater 1	Rater 2	Rater 3	n
1 Negative	Negative	Negative	66
2 Negative	Negative	Positive	8
3 Negative	Positive	Negative	6
4 Positive	Negative	Positive	14
5 Positive	Positive	Negative	31
6 Positive	Positive	Positive	124
7	Negative	Positive	1

Kappa Ponderado vs W de Kendal

veProcedimientos para estimar la validez de contenido
Kappa Ponderado vs W de Kendal
Kappa Ponderado
W de Kendal
Dos jueces.
Más de dos jueces
· Variables Ordinales
Puede tener un valor entre -1 y 1, donde 1
representa un acuerdo perfecto en el
ordenamiento y -1 representa un acuerdo
perfecto en el ordenamiento inverso.

Estadístico Kappa	Interpretación
<0,00	Pobre
0,00-0,20	Escaso
0,21-0,40	Justo
0,41-0,60	Moderado
0,61-0,80	Importante
0,81-1,00	Casi perfecto/Perfecto

Ejemplo de Kappa Ponderado

veProcedimientos para estimar la validez de contenido
Kappa Ponderado. Ejemplo
1º Descargar el paquete
meddecide.
Interrater Reliability
Ja MortalitySyr
1
Rater A
Rater B
New Test
Golden Standart
MeasurementA
MeasurementB
Disease Status
..
Measurement1
Table
Frequency Tables
2º Pasos.
Tests
Exact Kappa (>=3 Variables)
Weighted Kappa (Ordinal Variables only)
Unwe
Tests
Exact Kappa (>=3 Variables)
Weighted Kappa (Ordinal Variables only)
Squared
V
meddecide - Functions for Medical Decision in ClinicoPath jamovi
Module 0.0.2
Serdar Balci
This module contains functions for interobserver and intraobserver reliability and decision tests
(sensitivity, specificity, PPV, NPV). Power analyses are available.
OCULTAR
ELIMINAR
3º Interpretación.
Interrater Reliability
Method
Cohen's Kappa for 2 Raters (Weights: squared)
Subjects
250
Raters
2
Agreement %
59
Kappa
0.401
Z
6.38
<. 001
p-value
ve

¿Non has encontrado lo que buscabas?

Explora otros temas en la Algor library o crea directamente tus materiales con la IA.