Apuntes de Estadística 1: Conceptos básicos y medidas de tendencia central

Documento de Universidad Carlos Iii de Madrid sobre Statistics 1 Apuntes. El Pdf, creado por un autor desconocido, aborda los conceptos fundamentales de la estadística, incluyendo variables, población, muestras y medidas de tendencia central y dispersión, útil para estudiantes universitarios de Matemáticas.

Ver más

31 páginas

Statistics 1 Apuntes
Statistics (Universidad Carlos III de Madrid)
Scan to open on Studocu
Studocu is not sponsored or endorsed by any college or university
Statistics 1 Apuntes
Statistics (Universidad Carlos III de Madrid)
Scan to open on Studocu
Studocu is not sponsored or endorsed by any college or university
Downloaded by ALEXANDRA ELENA CIRIC PACURAR (100523886@alumnos.uc3m.es)
lOMoARcPSD|30020706
1.
INTRODUCTION AND BASIC CONCEPTS
1.1
WHAT IS STATISTICS?
In everyday language, the term statistics is used to refer to numbers that describe some aspect of the world.
¥ Economic statistics: number of unemployed, inflation rate, ...
¥ Demographic statistics: birth rate, life expectancy, ...
¥ Sports statistics: goals scored, number of red cards in a football match
¥ Meteorological statistics: temperature, rain,
Statistics is much more than mere numbers: it is the discipline that addresses how to collect, summarize, analyze,
and interpret data, to draw conclusions and make better decisions.
Applications of statistics vary from accounting, finance, marketing, economics, politics or sustainability.
Data are collected feature about a phenomenon under study.
1.2
TYPES OF STATISTICAL VARIABLES
Notation: typically the letters X, Y, Z are used. Example:
X = Number of employees in Madrid firms (upper case in definition)
x1 = 55; x2 = 3000 (lower case for specific values, we add subscripts to indicate individuals)
NOTE: Numerical codes for categorical variables DO NOT make them numerical (ex: Male = 1, Female = 2)
1.2.1
POPULATION AND SAMPLE
Population: complete collection of individuals. In practice it is unusual to study all the individuals of a
population:
¥ It may be economically unfeasible to study the entire population
¥ The study might take so much time that it would be infeasible and, moreover, the population might
change over the time span of the study
¥ The study may imply the destruction of individuals
Sample: subset of individuals drawn out from the population. To draw valid conclusions, it must be
representative of the population. The sample selection method is very important. Data sources comprise
observations, experiments, and historical data.
EFJJIJEFEFHFHJFFIE
6IWIVZEHSWXSHSWPSWHIVIGLSW2SWITIVQMXIPEI\TPSXEGMʬRIGSRʬQMGERMPEXVERWJSVQEGMʬRHIIWXESFVE5YIHETIVQMXMHEPEMQTVIWMʬRIRWYXSXEPMHEH
WUOLAH
Downloaded by ALEXANDRA ELENA CIRIC PACURAR (100523886@alumnos.uc3m.es)
lOMoARcPSD|30020706

Visualiza gratis el PDF completo

Regístrate para acceder al documento completo y transformarlo con la IA.

Vista previa

INTRODUCCIÓN Y CONCEPTOS BÁSICOS

¿QUÉ ES LA ESTADÍSTICA?

En el lenguaje cotidiano, el término estadística se utiliza para referirse a números que describen algún aspecto del mundo.

  • Estadísticas económicas: número de desempleados, tasa de inflación, ...
  • Estadísticas demográficas: tasa de natalidad, esperanza de vida, ...
  • Estadísticas deportivas: goles marcados, número de tarjetas rojas en un partido de fútbol
  • Estadísticas meteorológicas: temperatura, lluvia,

La estadística es mucho más que meros números: es la disciplina que aborda cómo recopilar, resumir, analizar e interpretar datos, para sacar conclusiones y tomar mejores decisiones.

Las aplicaciones de la estadística varían desde la contabilidad, las finanzas, el marketing, la economía, la política o la sostenibilidad.

Los datos son características recopiladas sobre un fenómeno en estudio.

TIPOS DE VARIABLES ESTADÍSTICAS

VARIABLES

Categorical (qualitative)

Numerical (quantitative)

Nominal: no natural ordering Most voted party in last elections

Ordinal: naturally ordered classes Purchase satisfaction

Discrete: integer Number of employees in Madrid firms

Continuous: not necessarily integer Expenses of Spanish city councils

Notación: típicamente se usan las letras X, Y, Z. Ejemplo: X = Número de empleados en empresas de Madrid (mayúsculas en la definición) x1 = 55; x2 = 3000 (minúsculas para valores específicos, añadimos subíndices para indicar individuos)

NOTA: Los códigos numéricos para variables categóricas NO las convierten en numéricas (ej: Hombre = 1, Mujer = 2)

POBLACIÓN Y MUESTRA

Población: colección completa de individuos. En la práctica es inusual estudiar a todos los individuos de una población:

  • Puede ser económicamente inviable estudiar a toda la población
  • El estudio podría llevar tanto tiempo que sería inviable y, además, la población podría cambiar durante el período de estudio
  • El estudio puede implicar la destrucción de individuos

Muestra: subconjunto de individuos extraídos de la población. Para sacar conclusiones válidas, debe ser representativa de la población. El método de selección de la muestra es muy importante. Las fuentes de datos comprenden observaciones, experimentos y datos históricos.

This document is available free of charge on studocu

Downloaded by ALEXANDRA ELENA CIRIC PACURAR (100523886@alumnos.uc3m.es)

ANÁLISIS DE DATOS UNIVARIADOS

REPRESENTACIONES Y GRÁFICOS

Para describir variables categóricas, podemos usar una tabla de frecuencias. Este es un ejemplo de una tabla de frecuencias:

Education level Number of employees Proportion of employees High School 14 0.304 College 19 0.413 Advanced Degree 13 0.283 Total 46 1

Donde el número de empleados representa frecuencias absolutas, y la proporción de empleados representa frecuencias relativas.

ESTRUCTURA DE UNA TABLA DE FRECUENCIAS

Class (category): Ci Absolute Frequency: ni Relative Frequency: fi Note that: C1 n1 f1 = "1 ni = number of individuals of class ci in the sample C2 n2 f2 = 12 n ! 0 ≤fi ≤ 1

GRÁFICOS DE BARRAS Y DE PASTEL, GRÁFICOS DE PARETO

GRÁFICOS DE BARRAS

Las barras tienen el mismo ancho y están igualmente espaciadas, sus alturas representan frecuencias. Hay espacios entre las barras, y las barras están etiquetadas con los nombres (o códigos) de las clases.

GRÁFICOS DE PASTEL

  • Cada sector del pastel es una fracción del círculo
  • Los sectores están etiquetados con los nombres de sus clases correspondientes
  • El software de computadora típicamente ordena las clases en orden alfabético
  • Los gráficos de pastel son visualmente atractivos, pero los tamaños relativos de los sectores son más difíciles de evaluar correctamente que en los gráficos de barras
  • Evite los gráficos de pastel 3D: la perspectiva 3D distorsiona nuestra percepción de los tamaños relativos de los sectores

GRÁFICOS DE PARETO

  • Gráfico de barras en el que las clases de la variable se clasifican en orden decreciente de frecuencia
  • Solo se aplica a variables categóricas nominales
  • Útil para identificar las clases más relevantes

Los gráficos de Pareto se utilizan para datos cualitativos, donde los gráficos se ordenan según las frecuencias. Las escalas verticales representan frecuencias y frecuencias relativas. El gráfico más alto está a la izquierda y el más bajo a la derecha.

Este gráfico se centra en las categorías más importantes.

Principio de Pareto (regla 80/20): Pareto afirmó que, típicamente, alrededor del 80% de los efectos provienen del 20% de las posibles causas. Ejemplos: "El 20% de la población posee alrededor del 80% de la riqueza". Veamos un ejemplo de aplicación del Gráfico de Pareto:

  • Muestra: Entre los 1.100 visitantes de la exposición de arte Turner y los Maestros (Museo del Prado), aquellos que compraron sus entradas online representaron el 20,3%.

Downloaded by ALEXANDRA ELENA CIRIC PACURAR (100523886@alumnos.uc3m.es) ... : : : Ck nk fk = 0k Total n 1o

Variable: main reason for buying ticket online

Tabla 9. Visitantes por la razón principal para adquirir la entrada por via telemática Filtro: Adquiere la entrada por via telemática % Por comodidad 60,5 Rapidez 10,1 Puedo elegir el día y la hora de la visita 14,0 No tengo que esperar en taquilla 9,5 Porque la entrada es más barata 4,3 Por el horario 24 horas 1,2 Había oído hablar bien del servicio 0,4 Total 100,0

From this data, we can extract:

Diagrama de Pareto 120,00% 100,00% 80,00% 60,00% 40,00% 20,00% 0,00% Por comodidad Puedo elegir dia y hora de ... Rapidez No tengo que esperar en ... Porque la entrada es más ... Por el horario 24 horas Había oído hablar bien del ...

TABLAS DE FRECUENCIAS

TABLAS DE FRECUENCIAS. DESCRIPCIÓN DE VARIABLES NUMÉRICAS DISCRETAS

  • Muestra: 100 centros comerciales en los que se lanzó una promoción de un determinado servicio en noviembre.
  • Variable: número de nuevos clientes del servicio

Ci Absolute Frequency ni Relative Frequency fi Absolute Cumulative Frequency Ni Relative Cumulative Frequency Fi 0 1 0.01 1 0.01 1 4 0.04 5 0.05 2 7 0.07 12 0.12 3 8 0.08 20 0.20 4 8 0.08 28 0.28 5 16 0.16 44 0.44 6 18 0.18 62 0.62 7 14 0.14 76 0.76 8 10 0.10 86 0.86 9 11 0.11 97 0.97 10 3 0.03 100 1.00 Total 100 1

new customers? 16% 2. How many malls attracted at least 3 new customers? 88 malls 3. What percentage of the sampled malls gained between 4 and 8 new customers? 0,86 - 0,28 = 0,58 = 58% 4. What percentage of malls gained at most 7 new customers? 76%.

Now, let us have a look at the STRUCTURE OF A FREQUENCY TABLE

Class, Ci Absolute Freq., ni Relative Freq., fi Cumulative Absolute Freq., Ni Cumulative Relative Freq., Fi C1 n1 fi = m C2 n2 f2 = "2 N1 = n1 N2= N1 + n2 Fı = f1 F2 = F1 + f2 : : : ... . Ck nk fk = Dk NK = n Fk= 1 Total n 1

Notes: - Absolute Frequency: number of malls Ci: number of customers - - Absolute Cumulative Frequency: sum of the previous value (4+1=5) We normally use this type of charts to answer given questions. Some examples could be: 1. What percentage of the sampled malls gained only 5

Fernando Alfayate Fernández - fernandoal This document is available free of charge on atestudocicom

Downloaded by ALEXANDRA ELENA CIRIC PACURAR (100523886@alumnos.uc3m.es)

NOTES: 1. C1< C2 <... < Ck 2. ni = number of individuals of class ci 3. Ni = Ni-1 + ni ; Fi = Fi-1 + fi 4. 0≤fi; Fi≤ 1 5. Fi and Ni also make sense for ordinal categorical variables

FRECUENCIAS ACUMULADAS. VARIABLES CATEGÓRICAS ORDINALES

  • Muestra: 901 empleados.
  • Variable: niveles de satisfacción (S = satisfecho; V = muy; U = insatisfecho)

Class Absolute Frequency Relative Frequency Cumulative Absolute Frequency Cumulative Relative Frequency VU 62 0.07 62 0.07 U 108 0.12 170 0.19 S 319 0.35 489 0.54 VS 412 0.46 901 1.00 Total 901 1

En el caso de un gráfico de barras, si es una variable ordinal, debe clasificarse en orden creciente.

Frecuencias relativas Frecuencias relativas acumuladas 1,00 1,00 0,90 0,90 0,80 0,80 0,70 0,70 0,60 0,60 0,50 0,50 0,40 0,40 0,30 0,30 0,20 0,20 0,10 0,10 0,00 0,00 M 5 MS M - S MS

Ahora, volviendo a las VARIABLES NUMÉRICAS DISCRETAS, es posible que queramos usar gráficos de barras, de manera organizada.

Eche un vistazo al siguiente ejemplo:

  • Muestra: 46 empleados.
  • Variable: EXPRNC: años trabajando en la empresa

Experience, Ci Absolute freq., ni Relative freq., fi 1 5 0.109 2 4 0.087 3 4 0.087 4 4 0.087 5 3 0.065 6 4 0.087 7 1 0.022 8 4 0.087 10 4 0.087 11 2 0.043 12 2 0.043 13 2 0.043 14 1 0.022 15 1 0.022 16 3 0.065 17 1 0.022 20 1 0.022 Total 46 1

Años de experiencia 6 5 4 3 2 1 O 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Fernando Alfayate Fernández - fernandoalfayate.apuntes@gmail.com Downloaded by ALEXANDRA ELENA CIRIC PACURAR (100523886@alumnos.uc3m.es)

Usar gráficos de barras en este ejemplo no es una forma adecuada de representarlos, porque tenemos muchos valores diferentes.

Es posible que queramos usar una agrupación en intervalos de clase. Vea los siguientes datos:

  • Muestra: 46 empleados.
  • Variable: EXPRNC: años trabajando en la empresa
  • Variable: SALARY: salario bruto anual

SALARY 18701 19800 20263 21352 22184 23174 24170 25685 20872 21371 22884 23780 25410 26330 27837 13876 14975 15965 16978 17404 11608 11767 12195 12321 13677 11283 11772 12313 12884 13245 13839 14803 15942 16882 17949 18838 19207 10535 11417 12336 13548 14467 14861 15990 17483 19346

EXPRNC 2 1 4 1 1 2 2 3 4 6 4 5 8 5 6 10 8 11 10 13 12 16 14 16 17 20 1 3 5 7 8 1 3 4 2 6 3 8 6 10 10 12 11 15 13 16

Estos datos se pueden agrupar usando la siguiente tabla. La agrupación en intervalos ayuda cuando se trata de datos de alta magnitud, como los que estamos tratando.

Class Interval Class Mark (midpoint) ni f; N; F [lo, [1] C1 = lothi 2 n1 f1 N1 F1 (l1, l2] C2 = litl2 n2 f2 N2 F2 2 : : : : (lk-1, lk] CK = K : lk-1tlk 2 nk fk n 1 Total n 1

Muy a menudo, los intervalos de clase tienen el mismo ancho. Este ancho se determina mediante la siguiente ecuación (ancho = w)

largest numbers - smallest numbers W = number of desired intervals

¿Cómo determinar el número de intervalos? Usualmente hacemos entre 5 y 20, y la recomendación se puede ver en esta tabla:

Sample size Number of classes Less than 50 5-7 50 to 100 7-8 101 to 500 8-10 501 to 1000 10-11 1001 to 5000 11-14 More than 5000 14-20

Muy importante, los intervalos de clase no pueden superponerse, y usualmente redondeamos el ancho del intervalo para obtener puntos finales de intervalo convenientes. Ahora veamos todo el proceso:

  • Rango = valor más alto - valor más bajo = 20 - 1 = 19
  • Número de clases (k) = raíz cuadrada del tamaño de la muestra = k = 146 = 6,78 = 7
  • Ancho del intervalo = rango = 19 = 2,71 = 3
  • Determinar los puntos finales (comenzando antes del primero y terminando después del último)
  • [0,3];(3,6] ......; (19,21]

Fernando Alfayate Fernández - fernandoa This document is available free of charge on studocu Downloaded by ALEXANDRA ELENA CIRIC PACURAR (100523886@alumnos.uc3m.es)

¿Non has encontrado lo que buscabas?

Explora otros temas en la Algor library o crea directamente tus materiales con la IA.