Introducción al análisis de datos y funciones de la estadística

Diapositivas de la Universidad Del País Vasco Euskal Herriko Unibertsitatea sobre Introducción al Análisis de Datos. El Pdf explora las funciones de la estadística descriptiva e inferencial, incluyendo estimación de la media, contraste de hipótesis y medidas de asociación, útil para estudiantes universitarios de Informática.

Ver más

41 páginas

Sistemas de Información y Análisis de Datos
Xabier Marichalar Mendia
xabier.marichalar@ehu.eus

Visualiza gratis el PDF completo

Regístrate para acceder al documento completo y transformarlo con la IA.

Vista previa

Introducción al análisis de datos

Sistemas de Información y Análisis de Datos Xabier Marichalar Mendia xabier.marichalar@ehu.eus eman ta zabal zazu Universidad del País Vasco Euskal Herriko Unibertsitatea

Funciones de la estadística descriptiva

Estadísticos y gráficos

Funciones de la estadística inferencial. Conceptos básicos Estimación sobre la media y las proporciones Contraste de hipótesis. Conceptos básicos Medidas de asociación, Interacción y confusión

Gráficos: ¿Siguen una "moda"?

Gráfico de barras

Discretas Diagrama de líneas Tallo-Hoja Variables cuantitativas Histograma Contínuas Polígono de frec. Hist. Frec. Acum. Ojiba Diagrama de cajas Variables cualitativas Diagrama de barras Diagrama de sectores

Reglas para gráficos

Eje X(abscisa): Valor de la variable Eje Y (ordenadas): Valores relativos o absolutos

Gráfico de barras discretas

Discretas Diagrama de líneas Tallo-Hoja fi 9 8 7 + 6 + 5 4 3 2 1 L 0 1 5 6 7 140 - 1202 100 80 60 40 20 Ū 1981 1983 1985 1987 1989 1991 1993 1995 1997

Gráfico de barras y líneas agrupadas

Discretas Diagrama de líneas Diagrama de barras y diagrama de líneas agrupadas 6 5 4 Series 1 3 Series 2 Series 3 2 1 0 I Category 1 Category 2 Category 3 Category 4 T2 T3 T4

Gráfico de barras y líneas apiladas

Discretas Diagrama de líneas Diagrama de barras y diagrama de líneas apiladas 15 10 5 0 70 60 50 40 DBT OHTA 30 WOBESIDAD 20 10 0 10 a 20 20 a 30 30 a 40 40 = 50

Gráfico de tallo-hoja

Discretas Diagrama de líneas Tallo-Hoja Tallo: Primeros dígitos Hoja: Último dígito 22; 23; 25; 25; 29; 31; 32; 32; 33; 42; 43; 43; 46; 47; 47; 48; 52; 52; 52; 54; 60; 63; 64; 73; 74 2 23559 122 3 3 4 2336778 5 2224 6 034 7 3 4 No se pierden los datos

Histograma de frecuencias

Contínuas Polígono de frec. Hist. Frec. Acum. Ojiba Diagrama de cajas7 Histograma Contínuas Eje X: Variable agrupada Eje Y: Frecuencias (relativas o absolutas) -

Polígono de frecuencias continuas

Contínuas Polígono de frec. 20 10 0 18 - 20 26 - 28 34- 36 42 - 44 50 - 52 22 - 24 30 - 32 38 - 40 46 - 48

Histograma de frecuencia acumulada y ojiva

Contínuas Hist. Frec. Acum. Ojiba UU An TU 07 0 0 <2 [2-3) [3-4) [4-5) [5-6) [6-7) <2 [2-3) [3-4) [4-5) [5-6) [6-7)

Diagrama de cajas

Contínuas Diagrama de cajasQ1; Q2 (Me); Q3 RI = (Q3- Q1) Edad Q3 + 1,5*RI Q3 Q2 (Me) Q1 |Q1 - 1,5*RI12,0- 10,0- 8,0- Frecuencia 6,0- 4,0- 2,0- 0,0 10,0 20,0 30,0 40,0 50,0 60,0 Adina (urte) Media = 31,603 Desviación estándar = 8,5593 N = 5880,0- 60,0- Pisua (kg) 40,0- 58 O57 O 20,0- ,0 Kontrola Kasua Taldea Taldea Kontrola Kasua 80,0- -80,0 70,0- -70,0 60,0- -60,0 Pisua (kg) 50,0- -50,0 Pisua (kg) 40,0- -40,0 30,0- -30,0 20,0- -20,0 12,0 10,0 8,0 6,0 4,0 2,0 0,0 2,0 4,0 6,0 8,0 10,0 12,0 Frecuencia Frecuencia

Diagrama de barras y sectores para variables cualitativas

7 Diagrama de barras Variables cualitativas Diagrama de sectores Diagrama de sectores: Color de pelo Marrón Negro Rubio 15 10 5 0 Pelirrojo Rubio Moreno I 40 35 30 25 20

Descripción bivariante

Tipos de variables

a) Dos variables cualitativas b) Una variable cuantitativa y otra cualitativa c) Dos variables cuantitativas

Producto Urkabe

URKABE Es de aquí. Es bueno 100% PECHUGA DE PAVO URKABE ® ES 10.02487/SS CE Es de aquí. Es bueno PECHUGA 'DE PAVO COCIDA Ingredientes: 64% pechuga de pavo, agua, sal, dextrosa, estabilizantes (E-451i, E-407, E-415). aromas, antioxidante [E-316), conservadores (E-250 E-325) y corrector de acidez (E-262ii). Fecha de Caducidad Nº LOTE: Puso Kg 135g 28JUL 19 90628 8424660 540355 MANTENER ENTRE 0° Y 5°℃ Fabricado por: Urkabe Benetan S.A. · Pol. Masti - Loidi n° 9 - 11 - 20100 Errenteria (Gipuzka»

Descripción bivariante: variables cualitativas

a) Dos variables cualitativas · Tablas tetracóricas o tablas de contingencia · Frecuencias relativas y/o absolutas; Porcentajes · 3 tipos de porcentajes: Absolutos y condicionados. Fumador ?* Género tabulación cruzada Recuento Género Hombre Mujer Total Fumador? No 13 13 26 Si 8 14 22 Total 21 27 48

Tabulación cruzada de fumador y género

Fumador ?* Género tabulación cruzada Recuento Género Hombre Mujer Total Fumador? No 13 13 26 Si CO 8 14 22 Total 21 27 48 Fumador ?* Género tabulación cruzada Género Hombre Mujer Total Fumador? No Recuento % del total 13 13 27,1% 27,1% 26 54,2% Si Recuento % del total 8 14 22 45,8% Total Recuento % del total 21 43,8% 56,3% 100,0% GGraph Fumador? No 30,0%- Si 20,0%- Porcentaje 10,0%- 0,0% Género 16,7% 29,2% 27 48

Porcentaje de fumadores por género

Fumador ?* Género tabulación cruzada Recuento Género Hombre Mujer Total Fumador? No 13 13 26 Si 8 14 22 Total 21 27 48 Fumador ?* Género tabulación cruzada Género Hombre Mujer Total Fumador? No Recuento % del total 13 13 26 27,1% 27,1% 54,2% Si Recuento % del total 16,7% 29,2% 45,8% Total Recuento % del total 43,8% 56,3% 100,0% GGraph 60,0%- 50,0%- 40,0%- Porcentaje 30,0% 20,0%- 10,0%- 0,0% No Si Fumador? GGraph 60,0%- 50,0%- 40,0%- Porcentaje 30,0%- 20,0%- 10,0%- 0,0% Hombre Mujer Género 8 14 22 21 27 48

Porcentaje dentro de fumador

Fumador ?* Género tabulación cruzada Recuento Género Hombre Mujer Total Fumador? No 13 13 26 Si 8 14 22 Total 21 27 48 Fumador ?* Género tabulación cruzada Género Hombre Mujer Total Fumador? No Recuento % dentro de Fumador? 13 13 26 50,0% 50,0% 100,0% Si Recuento % dentro de Fumador? 8 14 22 36,4% 63,6% 100,0% Total Recuento % dentro de Fumador? 21 27 48 43,8% 56,3% 100,0% Fumador ?: No 50,0% 40,0%- Porcentaje 30,0%- 20,0%- 10,0%- 0,0% Hombre Mujer Género Fumador ?: Si 60,0%- Porcentaje 40,0%- 20,0%- 0,0% Hombre Mujer Género

Porcentaje dentro de género

Fumador ?* Género tabulación cruzada Recuento Género Hombre Mujer Total Fumador? No 13 13 26 Si 8 14 22 Total 21 27 48 Fumador ?* Género tabulación cruzada Género Hombre Mujer Total Fumador? No Recuento % dentro de Género 13 13 26 61,9% 48,1% 54,2% Si Recuento % dentro de Género 8 14 22 38,1% 51,9% 45,8% Total Recuento % dentro de Género 21 27 48 100,0% 100,0% 100,0% Genero: Hombre 60,0%- Porcentaje 40,0%- 20,0%- 0,0% No Si Fumador? Género: Mujer 60,0%- 50,0%- 40,0%- Porcentaje 30,0%- 20,0%- 10,0%- 0,0%- No Si Fumador?

Gráficos de porcentaje de fumadores por género

Fumador ?* Género tabulación cruzada Recuento Género Hombre Mujer Total Fumador? No 13 13 26 Si 8 14 22 Total 21 27 48 GGraph Fumador? No 30,0%- Si 20,0% Porcentaje 10,0%- 0,0% Hombre Mujer Género Fumador ?: No 50,0%- 60,0% 50,0% 40,0% Porcentaje 30,0% 20,0%- 10,0% 0,0% Hombre Mujer Género No Si Fumador? GGrapn 60,0%- 50,0%- 40,0% Porcentaje 30,0%- 20,0% 10,0%- 0,0% Hombre Mujer Género Fumador ?: Si 60.0%; Porcentaje 40,0%- 20,0% 0,0% Hombre Mujer Género No Fumador? Género: Mujer 60,0%- 50,0%- 40,0% Porcentaje 30,0%- 20,0% 10,0%- 0,0% No Fumador? 7 Genero: Hombre 60,0% Porcentaje 40,0% 20,0%- 0,0%- GGraph 40,0%- Porcentaje 30,0%- 20,0%- 10,0% 0,0%

Descripción bivariante: variables cuantitativas y cualitativas

b) Una variable cuantitativa y otra cualitativa v Estadísticos: tendencia central, dispersión, posición y forma v Tipos de gráficos: Diagrama de cajas · Ejemplo: Peso y género

Percentiles de peso por género

Percentiles Smallest 1¢ 2520 2405 5% 2745 2520 10$ 2830 2580 Obs 137 2.5$ 3090 2605 Sum of Wgt. 137 50% 3335 Mean 3347.314 Largest Std. Dev. 386.3642 7.5% 3535 4200 90% 3830 4220 Variance 149277.3 9.5* 4060 4485 Skewness -4076376 99% 4485 4710 Kurtosis 3.886035 Percentiles Smallest 1¢ 2195 2140 5$ 2430 2195 10$ 2735 2260 Obs 113 25$ 2915 2345 Sum of Wgt. 113 50$ 3200 Mean 3246.947 Largest Std. Dev. 477.2547 7.5% 3525 4250 90% 3960 4265 Variance 227772.1 9.5% 4165 4300 Skewness .1983857 99% 4300 4320 Kurtosis 2.828713 Hombre Mujer Peso (DS) [min-max] 3347,3 (386,4) [2405 - 4710] 3246 (477,3) [2140 - 4320]Masculino Femenino

Descripción bivariante: dos variables cuantitativas

c) Dos variables cuantitativas 1. Grafico de puntos 2. Correlación lineal (Coeficiente r de Pearson)

Gráfico de puntos y coeficiente r de Pearson

1 .- Grafico de puntos y coeficiente r de Pearson: -1 < r < 1 Fuerte correlación lineal positiva ricerca 08 1 Fuerte correlación lineal negativa r cerca de -1 Ninguna correlación lineal aparente r cerca de cero Correlación curvilinea r cerca de cero3U G7 10 15 20 25 estriol correlate estriol peso ( obs=14) estriol peso estriol peso 1.0000 0.9184 1.0000

Funciones de la estadística inferencial

Conceptos básicos

Estimación sobre la media y las proporciones Contraste de hipótesis. Conceptos básicos Medidas de asociación, Interacción y confusión

Intervalo de confianza

· Estimación · Muestra -> Población ¿ Cuanto error me permito hacer? ·Error aleatorio = alpha = nivel de significancia = error tipo I El número de intervalos sobre 100 que no va contener el valor Si alpha = 5 > IC95% Tiempo trabajado y salarios en los dos grupos IPS n = 124 Control n =75 p Diferencia de medias (IC95%) Media DE Media DE Nº contratos por persona 3,89 2,77 4,85 7,55 0,290 -0,97 (-2,77-0,84) Total meses trabajados 25,58 20,70 11,57 16,30 < 0,001 14,01 (8,77-19,25) Horas de trabajo semanales 34,14 7,81 26,93 17,88 <0,001 7,21 (2,84-11,57) Horas anuales trabajadas 1022,38 533,79 287,53 420,36 <0,001 734,85 (599,79-869,92) Semanas anuales trabajadas 30,12 14,55 7,44 10,48 <0,001 22,68 (19,16-26,21) Meses trabajados al año 6,69 3,23 1,65 2,32 <0,001 5,04 (4,26-5,82) Salario mensual 777,95 217,37 599,90 390,45 <0,001 178,05 (80,03-276,08) Salario por hora 5,29 1,21 4,13 4,36 0,028 1,16 (0,13-2,18) IC95%: intervalo de confianza del 95%; DE: desviación estándar; IPS: apoyo individualizado al empleo.

Valor p

· lo que estamos viendo se deba al azar o no ·"si un valor "p" es menor a 0.05" > estadísticamente significativo DATA PDG N=104 CG N=106 P Age (mean+SD) (range) years 66.2+9.3 (19- 8) 59.2+ 14.1 (20-84) < 0.001 Gender F/M n (%) 38 (36.5) / 66 (63.5) 69 (65.1) / 37 (34.9) Tobacco n (%) 7 (6.7) 28 (26.4) 0.001 Alcohol n (%) 43 (41.3) 42 (39.6) 0.799

Interpretación del valor p

·"los resultados con valores p mayor a 0,05 no son interesantes, solamente son interesantes los que son estadísticamente significativo (p<0,05)".

Consideraciones sobre el valor p

·"los resultados con valores p mayor a 0,05 no son interesantes, solamente son interesantes los que son estadísticamente significativo (p<0,05)". NO!

¿Non has encontrado lo que buscabas?

Explora otros temas en la Algor library o crea directamente tus materiales con la IA.