Documento de Universidad Carlos Iii de Madrid sobre Statistics 1 Apuntes. El Pdf, creado por un autor desconocido, aborda los conceptos fundamentales de la estadística, incluyendo variables, población, muestras y medidas de tendencia central y dispersión, útil para estudiantes universitarios de Matemáticas.
Ver más31 páginas


Visualiza gratis el PDF completo
Regístrate para acceder al documento completo y transformarlo con la IA.
En el lenguaje cotidiano, el término estadística se utiliza para referirse a números que describen algún aspecto del mundo.
La estadística es mucho más que meros números: es la disciplina que aborda cómo recopilar, resumir, analizar e interpretar datos, para sacar conclusiones y tomar mejores decisiones.
Las aplicaciones de la estadística varían desde la contabilidad, las finanzas, el marketing, la economía, la política o la sostenibilidad.
Los datos son características recopiladas sobre un fenómeno en estudio.
VARIABLES
Categorical (qualitative)
Numerical (quantitative)
Nominal: no natural ordering Most voted party in last elections
Ordinal: naturally ordered classes Purchase satisfaction
Discrete: integer Number of employees in Madrid firms
Continuous: not necessarily integer Expenses of Spanish city councils
Notación: típicamente se usan las letras X, Y, Z. Ejemplo: X = Número de empleados en empresas de Madrid (mayúsculas en la definición) x1 = 55; x2 = 3000 (minúsculas para valores específicos, añadimos subíndices para indicar individuos)
NOTA: Los códigos numéricos para variables categóricas NO las convierten en numéricas (ej: Hombre = 1, Mujer = 2)
Población: colección completa de individuos. En la práctica es inusual estudiar a todos los individuos de una población:
Muestra: subconjunto de individuos extraídos de la población. Para sacar conclusiones válidas, debe ser representativa de la población. El método de selección de la muestra es muy importante. Las fuentes de datos comprenden observaciones, experimentos y datos históricos.
This document is available free of charge on studocu
Downloaded by ALEXANDRA ELENA CIRIC PACURAR (100523886@alumnos.uc3m.es)
Para describir variables categóricas, podemos usar una tabla de frecuencias. Este es un ejemplo de una tabla de frecuencias:
Education level Number of employees Proportion of employees High School 14 0.304 College 19 0.413 Advanced Degree 13 0.283 Total 46 1
Donde el número de empleados representa frecuencias absolutas, y la proporción de empleados representa frecuencias relativas.
Class (category): Ci Absolute Frequency: ni Relative Frequency: fi Note that: C1 n1 f1 = "1 ni = number of individuals of class ci in the sample C2 n2 f2 = 12 n ! 0 ≤fi ≤ 1
Las barras tienen el mismo ancho y están igualmente espaciadas, sus alturas representan frecuencias. Hay espacios entre las barras, y las barras están etiquetadas con los nombres (o códigos) de las clases.
Los gráficos de Pareto se utilizan para datos cualitativos, donde los gráficos se ordenan según las frecuencias. Las escalas verticales representan frecuencias y frecuencias relativas. El gráfico más alto está a la izquierda y el más bajo a la derecha.
Este gráfico se centra en las categorías más importantes.
Principio de Pareto (regla 80/20): Pareto afirmó que, típicamente, alrededor del 80% de los efectos provienen del 20% de las posibles causas. Ejemplos: "El 20% de la población posee alrededor del 80% de la riqueza". Veamos un ejemplo de aplicación del Gráfico de Pareto:
Downloaded by ALEXANDRA ELENA CIRIC PACURAR (100523886@alumnos.uc3m.es) ... : : : Ck nk fk = 0k Total n 1o
Variable: main reason for buying ticket online
Tabla 9. Visitantes por la razón principal para adquirir la entrada por via telemática Filtro: Adquiere la entrada por via telemática % Por comodidad 60,5 Rapidez 10,1 Puedo elegir el día y la hora de la visita 14,0 No tengo que esperar en taquilla 9,5 Porque la entrada es más barata 4,3 Por el horario 24 horas 1,2 Había oído hablar bien del servicio 0,4 Total 100,0
From this data, we can extract:
Diagrama de Pareto 120,00% 100,00% 80,00% 60,00% 40,00% 20,00% 0,00% Por comodidad Puedo elegir dia y hora de ... Rapidez No tengo que esperar en ... Porque la entrada es más ... Por el horario 24 horas Había oído hablar bien del ...
Ci Absolute Frequency ni Relative Frequency fi Absolute Cumulative Frequency Ni Relative Cumulative Frequency Fi 0 1 0.01 1 0.01 1 4 0.04 5 0.05 2 7 0.07 12 0.12 3 8 0.08 20 0.20 4 8 0.08 28 0.28 5 16 0.16 44 0.44 6 18 0.18 62 0.62 7 14 0.14 76 0.76 8 10 0.10 86 0.86 9 11 0.11 97 0.97 10 3 0.03 100 1.00 Total 100 1
new customers? 16% 2. How many malls attracted at least 3 new customers? 88 malls 3. What percentage of the sampled malls gained between 4 and 8 new customers? 0,86 - 0,28 = 0,58 = 58% 4. What percentage of malls gained at most 7 new customers? 76%.
Now, let us have a look at the STRUCTURE OF A FREQUENCY TABLE
Class, Ci Absolute Freq., ni Relative Freq., fi Cumulative Absolute Freq., Ni Cumulative Relative Freq., Fi C1 n1 fi = m C2 n2 f2 = "2 N1 = n1 N2= N1 + n2 Fı = f1 F2 = F1 + f2 : : : ... . Ck nk fk = Dk NK = n Fk= 1 Total n 1
Notes: - Absolute Frequency: number of malls Ci: number of customers - - Absolute Cumulative Frequency: sum of the previous value (4+1=5) We normally use this type of charts to answer given questions. Some examples could be: 1. What percentage of the sampled malls gained only 5
Fernando Alfayate Fernández - fernandoal This document is available free of charge on atestudocicom
Downloaded by ALEXANDRA ELENA CIRIC PACURAR (100523886@alumnos.uc3m.es)
NOTES: 1. C1< C2 <... < Ck 2. ni = number of individuals of class ci 3. Ni = Ni-1 + ni ; Fi = Fi-1 + fi 4. 0≤fi; Fi≤ 1 5. Fi and Ni also make sense for ordinal categorical variables
Class Absolute Frequency Relative Frequency Cumulative Absolute Frequency Cumulative Relative Frequency VU 62 0.07 62 0.07 U 108 0.12 170 0.19 S 319 0.35 489 0.54 VS 412 0.46 901 1.00 Total 901 1
En el caso de un gráfico de barras, si es una variable ordinal, debe clasificarse en orden creciente.
Frecuencias relativas Frecuencias relativas acumuladas 1,00 1,00 0,90 0,90 0,80 0,80 0,70 0,70 0,60 0,60 0,50 0,50 0,40 0,40 0,30 0,30 0,20 0,20 0,10 0,10 0,00 0,00 M 5 MS M - S MS
Ahora, volviendo a las VARIABLES NUMÉRICAS DISCRETAS, es posible que queramos usar gráficos de barras, de manera organizada.
Eche un vistazo al siguiente ejemplo:
Experience, Ci Absolute freq., ni Relative freq., fi 1 5 0.109 2 4 0.087 3 4 0.087 4 4 0.087 5 3 0.065 6 4 0.087 7 1 0.022 8 4 0.087 10 4 0.087 11 2 0.043 12 2 0.043 13 2 0.043 14 1 0.022 15 1 0.022 16 3 0.065 17 1 0.022 20 1 0.022 Total 46 1
Años de experiencia 6 5 4 3 2 1 O 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Fernando Alfayate Fernández - fernandoalfayate.apuntes@gmail.com Downloaded by ALEXANDRA ELENA CIRIC PACURAR (100523886@alumnos.uc3m.es)
Usar gráficos de barras en este ejemplo no es una forma adecuada de representarlos, porque tenemos muchos valores diferentes.
Es posible que queramos usar una agrupación en intervalos de clase. Vea los siguientes datos:
SALARY 18701 19800 20263 21352 22184 23174 24170 25685 20872 21371 22884 23780 25410 26330 27837 13876 14975 15965 16978 17404 11608 11767 12195 12321 13677 11283 11772 12313 12884 13245 13839 14803 15942 16882 17949 18838 19207 10535 11417 12336 13548 14467 14861 15990 17483 19346
EXPRNC 2 1 4 1 1 2 2 3 4 6 4 5 8 5 6 10 8 11 10 13 12 16 14 16 17 20 1 3 5 7 8 1 3 4 2 6 3 8 6 10 10 12 11 15 13 16
Estos datos se pueden agrupar usando la siguiente tabla. La agrupación en intervalos ayuda cuando se trata de datos de alta magnitud, como los que estamos tratando.
Class Interval Class Mark (midpoint) ni f; N; F [lo, [1] C1 = lothi 2 n1 f1 N1 F1 (l1, l2] C2 = litl2 n2 f2 N2 F2 2 : : : : (lk-1, lk] CK = K : lk-1tlk 2 nk fk n 1 Total n 1
Muy a menudo, los intervalos de clase tienen el mismo ancho. Este ancho se determina mediante la siguiente ecuación (ancho = w)
largest numbers - smallest numbers W = number of desired intervals
¿Cómo determinar el número de intervalos? Usualmente hacemos entre 5 y 20, y la recomendación se puede ver en esta tabla:
Sample size Number of classes Less than 50 5-7 50 to 100 7-8 101 to 500 8-10 501 to 1000 10-11 1001 to 5000 11-14 More than 5000 14-20
Muy importante, los intervalos de clase no pueden superponerse, y usualmente redondeamos el ancho del intervalo para obtener puntos finales de intervalo convenientes. Ahora veamos todo el proceso:
Fernando Alfayate Fernández - fernandoa This document is available free of charge on studocu Downloaded by ALEXANDRA ELENA CIRIC PACURAR (100523886@alumnos.uc3m.es)