Estadística Descriptiva II: análisis de datos y medidas de variabilidad

Diapositivas sobre Estadística Descriptiva II, enfocadas en el análisis de datos y las medidas de variabilidad. El Pdf, un recurso de nivel universitario para la asignatura de Matemáticas, aborda conceptos clave como el rango y la formulación de hipótesis, con ejemplos numéricos para facilitar la comprensión.

Ver más

30 páginas

Visualiza gratis el PDF completo

Regístrate para acceder al documento completo y transformarlo con la IA.

Vista previa

ANALIZAR DATOS

Los análisis de los datos dependen de dos factores fundamentales

  • a ) El nivel de medición de las variables (ver apunte anterior)
  • b ) La manera como se hayan formulado las hipótesis, dependiendo si quiero describir, correlacionar o explicar qué tipo de análisis voy a necesitar (ver alcances de estudio y tipos de hipótesis)

En primer lugar el investigador busca describir sus datos y posteriormente efectuar análisis estadísticos para relacionar sus variables. Es decir, realiza análisis de estadística descriptiva para cada una de las variables de la matriz (ítems o indicadores) y luego para cada una de las variables del estudio, finalmente aplica cálculos estadísticos para probar sus hipótesis. Esta segunda parte la veremos más adelante. Ahora veremos la PARTE DESCRIPTIVA,

Analizar datos parte I: Estadística descriptiva

La primera tarea es describir los datos, los valores o las puntuaciones obtenidas para cada variable. Por ejemplo, si aplicamos a 1000 personas el cuestionario sobre la ansiedad en la cuarentena, ¿cómo pueden describirse estos datos? Esto se logra al describir la distribución de las puntuaciones O frecuencias de cada variable.

DISTRIBUCIÓN DE FRECUENCIAS

Una distribución de frecuencias es un conjunto de puntuaciones respecto de una variable ordenadas en sus respectivas categorías y generalmente se presenta como una tabla (O'Leary, 2014 y Nicol, 2006). Existen distintas formas de calcular la distribución de frecuencias:

  • E Frecuencia absoluta/ observada (fi)
  • Proporción observada/frecuencia relativa (pi)
  • Frecuencia absoluta acumulada/ Frecuencia de forma acumulada (Fi)
  • E Frecuencia relativa acumulada (pa)
  • Porcentaje (Pi)

Frecuencia absoluta/ observada (fi)

  • E Es el número de veces que aparece un valor en una muestra.
  • E Suma de las frecuencias absolutas = número total de datos.

Proporción observada/frecuencia relativa (pi)

Relación entre la frecuencia absoluta de cada valor y el tamaño muestral n. Suma de las frecuencias relativas = tiene que ser la unidad.

Frecuencia absoluta acumulada/ Frecuencia de forma acumulada (Fi)

Aparición acumulada de los valores iguales o inferiores a Xi

Frecuencia relativa acumulada (pa)

Cociente entre su Fi y la magnitud muestral

Porcentaje (Pi)

Tantos por cien en lugar de tantos por uno. La suma de los porcentajes deberá ser el 100%.

Frecuencia absoluta/ observada (fi) Ejemplo

En un estudio entre 200 personas latinas que viven en el estado de California, Estados Unidos, se les preguntó: ¿cómo prefiere que se refieran a usted en cuanto a su origen étnico? Las respuestas fueron: Tabla 10.4 Ejemplo de una distribución de frecuencias Variable: preferencias al referir el origen étnico (nombrada en SPSS: prefoe)

CategoríasCódigos (valores)Frecuencias
Hispano152
Latino288
Latinoamericano36
Americano422
Otros520
No respondieron612
Total200

De las 200 personas encuestadas, 52 respondieron que son hispanas

De las 200 personas encuestadas, 6 respondieron que son latinoamericanas

¿Qué otros elementos contiene una distribución de frecuencias?

Las distribuciones de frecuencias pueden completarse agregando los porcentajes de casos en cada categoría, los porcentajes válidos (excluyendo los valores perdidos, o sea, los casos en que la personas dejó vacío el ítem) y los porcentajes acumulados (porcentaje de lo que se va acumulando en cada categoría, desde la más baja hasta la más alta). El porcentaje acumulado constituye lo que aumenta en cada categoría de manera porcentual y progresiva (en orden de aparición de las categorías), tomando en cuenta los porcentajes válidos.

Tabla 10.7 Ejemplo de una distribución de frecuencias con todos sus elementos

Variable: cooperación del personal con el proyecto de calidad de la empresa

CategoríasCódigosFrecuenciasPorcentaje válidoPorcentaje acumulado
Si se ha obtenido la cooperación19174.674.6
No se ha obtenido la cooperación254.178.7
No respondieron32621.3100.0
Total122100.0

1 91 personas eligieron la categoría "sí se ha obtenido la cooperación" (por eso la frecuencia es 91). Eso indica que del total de las respuestas (que fueron 122) 74.6% respondieron esta categoría. Ese es el porcentaje válido. Al mismo tiempo si tomo en cuenta esta categoría de respuesta se ha acumulado 74.6% de las respuestas totales. 2 5 personas eligieron la categoría "no se ha obtenido la cooperación" (por eso la frecuencia es 5), eso indica que del total de las respuestas (que fueron 122) el 4.1% corresponde a esta categoría, ese es el porcentaje válido. Esto acumula 78.7% (74.6% de la categoría anterior y 4.1% de la categoría en cuestión). 3 26 de las 122 no respondieron esta variable por eso los cargamos en "no respondieron" y su frecuencia es 26. Estos representan el 21.3% de las respuestas. Y siempre en la última categoría se acumula el total porcentaje (100%).

Gráficos para mostrar la distribución de frecuencias

Aparte de tablas, se suelen utilizar gráficos para mostrar la distribución de frecuencias.

Figura 10.4 Ejemplos de gráficas para presentar distribuciones

Histogramas Gráficas circulares Otros tipos de gráficas Opinión acerca del actual alcalde del municipio de San Martin Aurelio Cooperación de todo el personal (o la mayoría) para el proyecto de calidad (122 = 100%) Control paterno sobre el uso que los niños hacen de la televisión. 44.4 47.1% 52.9% Regañan cuando el niño ve mucha televisión 31.1 No 4.1% No respondieron 21.3% 40.4% 59.6% A veces castigan al niño sin ver televisión 64.4% 35.6% Prohiben que vea algunos programas Si 74.6% 1.9 68.4% 31.6% Imponen la hora de irse a la cama Muy desfavorable Desta- vorable Neutral Favorable Muy favorable Hay control No hay control Solamente la tercera parte de los ciudadanos expresa una opinión positiva respecto al alcalde (favorable o muy favorable). Prácticamente tres cuartas partes han obtenido la cooperación de todo el personal para el proyecto de la empresa. Pero llama la atención que poco más de una quinta parte no quiso comprometerse con su respuesta. Los cinco motivos de no cooperación con dicho proyecto fueron: absentismo, falta de interés, rechazo al cambio, falta de concientización y conformismo. 2.3 20.3

MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central son puntos en una distribución obtenida, los valores medios o centrales de ésta, y nos ayudan a ubicarla dentro de la escala de medición de la variable analizada. Son medidas que buscan posiciones (valores) con respecto a los cuales los datos muestran una tendencia a agruparse. Es el estudio del centro de la distribución observada. I Las principales medidas de tendencia central son tres:

  1. Moda
  2. Mediana
  3. Media

¡IMPORTANTE! El nivel de medición de la variable determina cuál es la medida de tendencia central apropiada para interpretar.

MODA

Se utiliza con cualquier nivel de medición (nominal, ordina, intervalo y de razón)

MEDIANA

Se utiliza en los niveles de medición ordinal, por intervalos y de razón. No se usa con variables nominales.

MEDIA

se utiliza en los niveles de medición por intervalos y de razón. No se usa con variables nominales y ordinales.

MODA

Es la categoría o puntuación que ocurre con mayor frecuencia. Se utiliza con cualquier nivel de medición.

  • E Único estadístico de tendencia central para variables cualitativas.
  • Es la única medida de tendencia que puede no existir.

La moda es "1" (sí se ha obtenido la cooperación) porque es la opción de respuesta que Más eligieron los participantes en la variable "cooperación del personal .. ", o sea el valor que ocurrió con más frecuencia. Tabla 10.7 Ejemplo de una distribución de frecuencias con todos sus elementos Variable: cooperación del personhii con el proyecto de calidad de la empresa

CategoriasCódigosFrecuenciasPorcentaje válidoPorcentaje acumulado
Si se ha obtenido la cooperación19174.674.6
No se ha obtenido la cooperación54.178.7
No respondieron32621.3100.0
Total122100.0

MEDIANA

  • E Es el valor que divide la distribución por la mitad. Esto es, la mitad de los casos caen por debajo de la mediana y la otra mitad se ubica por encima de ésta.
  • E) La mediana refleja la posición intermedia de la distribución.
  • E Por ejemplo, si los datos obtenidos fueran: 24 31 35 35 38 43 45 50 57 La mediana es 38, porque deja cuatro casos por encima (43, 45, 50 y 57) y cuatro casos por debajo (35, 35, 31 y 24).
  • E Parte a la distribución en dos mitades.
  • E La mediana es una medida de tendencia central propia de los niveles de medición ordinal, por intervalos y de razón. No tiene sentido con variables nominales, porque en este nivel no hay jerarquías ni noción de encima o debajo. La mediana es particularmente útil cuando hay valores extremos en la distribución.

MEDIA

  • E Es tal vez la medida de tendencia central más utilizada
  • E Es el promedio aritmético de una distribución. Es la suma de todos los valores dividida entre el número de casos.
  • E Se simboliza como X o ME (así se encuentra en los papers)
  • E Es una medida solamente aplicable a mediciones por intervalos o de razón. Carece de sentido para variables medidas en un nivel nominal u ordinal.
  • E Ejemplo: Si tuviéramos las siguientes puntuaciones: 8 7 6 4 3 2 6 9 8 El promedio sería igual a 5.88. Pero bastaría una puntuación extrema para alterarlo de manera notoria: 8 7 6 4 3 2 6 9 20 (promedio igual a 7.22). La mediana puede ser una medida de interpretación más útil que la media si la distribución está más cargada hacia puntuaciones extremas (Kwok, 2008a y Hempel, 2006).

MEDIDAS DE VARIABILIDAD o DISPERCIÓN

Indican la dispersión de los datos en la escala de medición de la variable considerada y responden a la pregunta: ¿ dónde están diseminadas las puntuaciones o los valores obtenidos? ¿ Cuán fiable es la medida de tendencia central? Las medidas de tendencia central son valores en una distribución y las medidas de la variabilidad son intervalos que designan distancias o un número de unidades en la escala de medición.

Indican por medio de un número si las diferentes puntuaciones de una variable están muy alejadas de la media.

  • Cuanto mayor sea ese valor, mayor será la variabilidad, y cuanto menor sea, más homogénea será a la media.
  • Así se sabe si todos los casos son parecidos o varían mucho entre ellos.

Las medidas de la variabilidad más utilizadas son

  1. Rango
  2. Desviación estándar
  3. Varianza

¿Non has encontrado lo que buscabas?

Explora otros temas en la Algor library o crea directamente tus materiales con la IA.