Introducción al análisis de datos
Sistemas de Información y Análisis de Datos
Xabier Marichalar Mendia
xabier.marichalar@ehu.eus
eman ta zabal zazu
Universidad
del País Vasco
Euskal Herriko
UnibertsitateaDefinición
NO entra
a examen .
Estadística
Ciencia que se encarga de la descripción, del análisis y la
interpretación de los datos.
Bioestadística
Rama de la estadística que se utiliza en ciencias de la salud.
- Descripción.
- Análisis /Interpretación.
- Inferencia.
- Población: Grupo de individuos que queremos analizar.
- Dificultad (imposible llegar a toda la población)
-
Dinero
-
Tiempo
-
...
- Muestra: Selección de un subgrupo de la población.
- Representativa.
- Inferencia: Mediante las muestras llegar a las características de la
población
extrapolación a la población de origen
BLACION
Muestra
Inferencia
Estadística descriptiva
Resumen y organización de datos
expresados de forma cuantitativa.
Estadística analítica
Analítica / Inferencia:
Mediante el muestreo, acercarse a
la población. Estimación y
contraste de hipótesis.
Si no la heures
descrito antes no se va
poder aplicar
aProgramas estadísticos
Programas estadísticos
STATA
12
licencia + barato
7 . giove para toda
le vide la versione
funciona por
programación
Stata/TC 11.0 -
Eile Edit
Data Graphics Statistics User Window Hdp
Review
(R)
Command
STATE
11.0
Copyright 1984-2009
wie"CAUsen
tistics/Data Analysis
Statacorp
list 1DI arti GCreeson if search= = ]
4905 Lakeway Drive
College Station, Texas 77845 USA
800-STATA-PC
http://www.stata.com
979-696-4600
979-696-4601 (fax)
statsestata. com
16-student stata lab perpetual license:
serial number:
Licensed to:
Variables
> X
Name
Label
NOEOS !
casename
Case Name
(/m# option or -set memory-) 10.00 Mm allocated to data
2. New update available; type -update all-
doctype
Decision or Judgeme
search
Search Term Used
we "C:\users'
gendercode
gendered, could be,
GCreason
reason if gendercode
Ist Applicant ID
101
Cresson
2nd Applicant ID
17582/05
11.1
0
3rd Applicant ID
371.
42325/07
4th Applicant ID
27238/03
2
105
5th Applicant ID
6th Applicant ID
7th Applicant ID
8th Applicant ID
9th Applicant ID
10th Applicant ID
Ist Article
2nd Article
Command
3rd Article
4th Anicle
CAP NUM OVR
RGul (64-bit)
File Edit View Misc Packages Windows Help
R.Console
R version 3.0.2 (2013-09-25) -- "Frisbee Sailing"
Copyright (C) 2013 The R Foundation for Statistical Computing
Platform: x86_64-W64-mingw32/x64 (64-bit)
R is free software and comes with ABSOLUTELY NO WARRANTY.
You are welcome to redistribute it under certain conditions.
Type 'license () ' or 'licence () ' for distribution details.
Natural language support but running in an English locale
R is a collaborative project with many contributors.
Type 'contributors () ' for more information and
*citation() ' on how to cite R or R packages in publications.
Type 'demo () ' for some demos, 'help() ' for on-line help, or
'help. start () ' for an HTML browser interface to help.
Type 'q() ' to quit R.
[Previously saved workspace restored)
> * - 20
[1] 29
> y = mnorm (1000, mean = x, ad -2)
> hint (v)
> c [mean (y) , ad(y) )
[1] 19.891741 2.055908
R R Graphics Device 2 (ACTIVE)
Histogram of
150 200
Frequency
100
50
O
T
15
20
X
Books - Microsoft Excel non-conweercial use
Home
Fogr Ltyes
A
1 Conditions Formatting
Delete +
Cell Styles .
E) Format
Chpboard
Alignment
.
C
0
L
--
14
16
17
19
+ + + + Sheet1. Sheet2 , Showt) , (0)
R
acceso libre
gratuito.
Casi todo es
programación
Pocos activos
donde t
diseñoen
parches (sintax)
E IBM SPSS Statistics 19 - 32 bit
IBM.
IBM SPSS® Statistics
Version 19.0
Install IBM SPSS Statistics 19
Install IBM SPSS Amos 19
Get IBM SPSS Statistics - Essentials for Python 19
Get IBM SPSS Statistics - Essentials for R 19
Install IBM SPSS Smartreader
Installation Instructions
Browse the DVD
Exit
SPSS->el q. + se usa en
ciencias de la salud.
Desventaja:
es cato licencia aval
r
(PSPP
Version
granita
416.
42502/06
0
434
25965/04
1
1
22266/04
302/02
1343.
20785/04
6.1
30078/06
3
0
4916/07
0
310
list IDI art1 Ccreason if search-1, clean nolabel
. outsheet IDI art1 CCreason if search-1 using filenamel. csv, comma nolabel
EXCEL
y
..
outsheet IDL arti GCremen if searE importante
plantear las
objetivol.
Objetivo del estudio
¿Cual es el objetivo de nuestro estudio?
Determinar la unidad de estudio
- Persona
- Úlcera
- Muestra
-...
Dependiendo del estudio
cambiará la unidad de estudio
Hay que tenerlo en cuenta
para vecujos los datos.
veremos con
10
Deve.
€
Tipo de estudio y Selección de variables
(Características que varían entre los sujetos)Son números enterar.
9: Ulceras 10 2,10
puedo tener
15.
Tipos de variables
Cuantitativas
La modalidad de este tipo de variable se puede medir:
Peso; Temperatura; Altura; Edad ...
- Discretas: Valores aislados: Nº de hij@s; Nº de úlceras ...
- Contínuas: Valores infinitos entre dos valores.
..
Cualitativas
Categorías que muestra una característica, con o sin orden
y expresadas con palabras:
Color de ojos; Género; Grupos sanguíneo; ...
- Nominales: No tienen un orden definido: Código postal; ...
- Ordinales: El orden tiene importancia: Nivel de estudios; ...
% la edad, peso.
9. grupo sanguíneo
note ordenar
un gemporiges
rosso10"Sin titulo1 [ConjuntoDatos0) - IBM SPSS Statistics Editor de datos
Archivo
Editar
Datos
Transformar
Analizar
Gráficos
Losidades
Ampliaciones
Ventana
Arada
Definir propiedades de variables.
? Definir nivel de medición para desconocido ...
Copiar propiedades de datos
VARDOC
Nuevo atributo personalizado.
1
1
2
3
4
5
1.
Ordenar casos
6
7
8
+
Ajustar el ancho de las cadenas de distintos a
Lista de variables exploradas
Variable actual
VAR00001
Etiqueta:
Si ..
Me ...
Rol
Variable
Nivel de medición:
Escala
1
Sugerir
Tipo:
Numérico
VAR00001
Rol:
Estald
Ordinal
Anchura:
8
Decimales:
2
Valores sin etiqueta:
Nominal
Atributos ...
14
15
16
17
Dividir en archivos
Escala
Escala
1,01
Escala
19
, Copiar conjunto de datos
3
Ordinal
Ordinal
Ordinal
Nominal
Nominal
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
Vista de datos
Vista de variables
Definir propiedades de variables.
IBM SPSS Statistics Processor está listo
Unicode:ON
17.28
28/10/2019
+
Definir propiedades de variables
X
Tragsponer ..
9
10
Fusionar archivos
11
12
13
Coincidencia de puntuación de propensión
+
Coincidencia de control de casos ....
FEL Agregar ..
Diseño ortogonal
Cambiado
1
18
20
== Segmentar archivo
21
Seleccionar casos.
22
5- Ponderar casos.
Nominal
1
Copiar propiedades
Valores sin etiquetas
Casos explorados:
13
De otra variable ..
A otras variables ...
Etiquetas automáticas
Límite lista valores:
200
Aceptar
Pegar
Restablecer
Cancelar
Ayuda
A
APTE
1
:VAR00001
Visible: 1 de 1 variabl
var
var
va
var
var
va
va
Definir fecha y hora ...
1,0
ili Definir conjuntos de respuestas múltiples.
identificar casos duplicados.
1.6 5R, Comparar conjuntos de datos ...
1,
Ordenar variables
Fw Beestructurar ..
+
Ponderaciones Rake
cuantitativa
Cuadrícula etiq. valores:
i
Añada etiquetas a la cuadrícula o edítelas. Puede añadir valores abajo.
2
emejor cojar
las variables
brutas.
Cómo recoger los datos
- Variables no calculadas
Altura y peso > IMC
Engenias perdiendo
datos y lo puedes calcular después.
Se pueden usar luego para otra casa.
proceso con programa para evitar
errores.
automatizar el
- Variable cuantitativa > Variable cualitativa
- Variable cualitativa K categorías > Variable dicotómica
Ej· ¿ mayor de eda? Si/NO
- Edad (Fecha de registro y Fecha de nacimiento)
mejor fecha nacimiento que no la edad. Ho es más difícil que nos mien"
- Tratar de recoger de forma numérica (0, 1, ... )
Ejemplo el código postal
Los programas estadístico con:
Caracter dependiente,
para el Barakaldo + Baracaldo
como con la edad
mejor el nºque no elFunciones de la estadística descriptiva. Estadísticos y gráficos
Funciones de la estadística inferencial. Conceptos básicos
Estimación sobre la media y las proporciones
Contraste de hipótesis. Conceptos básicos
Medidas de asociación, Interacción y confusiónLenguaje natural
Lalengergie del día a día
9,9 9,3 10,2 9,4 10,1
9,6
9,9 10,1
9,8
9,8 9,8 10,1 9,9 9,7
9,8 9,9 10,0 9,6
9,7 9,4 9,6 10,0 9,8
9,9 10,1 10,4 10,0
10,2 10,1
9,8 10,1 10,3 10,0 10,2 9,8 10,7
9,3 10,3
9,9
9,8 10,3
9,5
9,9
9,9 10,7
9,3 10,2
9,2
9,9
9,7
9,9
9,8
9,5
9,4
9,0
9,5
9,7
9,7
9,8
9,8
9,3
9,6
9,7
10,0
9,7
9,4
9,8
9,4
9,6 10,0 10,3
9,8
9,5
9,7 10,6
9,5 10,1 10,0
9,8 10,1
9,6
9,6
9,4 10,1
9,5 10,1 10,2
9,8 9,5
9,3
10,3
9,6
9,7
9,7 10,1 9,8
9,7 10,0 10,0
9,5
9,5
9,8
9,9 9,2. 10,0 10,0 9,7 9,7
9,9 10,4
9,3
9,6 10,2
9,7
9,7 9,7 10,7
9,9 10,2
9,8
9,3 9,6
9,5
9,6 10,7Descripción univariante: Variable cuantitativa
Saba si se ditortanje de forme normal o no
¿Distribución normal ?-
cuando la variable cuantitativa
Ligue el perfil de la coupure
1,6; 1,7; 1,7; 2; 2; 2; 2,1; 2,1; 2,1; 2,1; 2,3; 2,3; 2,3; 2,3 ;...... 5; 5; 5,1
de gaus.
x = 3,3
-
media
nº de bebés
2,000
2,900
3,300
3,600
4,400
5,000
peso
->Descripción univariante: Variable cuantitativa
¿Distribución normal?
ingen
no sabríamo di se distribuyen de
foura normal solo ou ver le
amigne parere q sí.
0.25
0.20
0.15
0.10
0.05
0.00
0
100
200
300
400
500
600Descripción univariante: Variable cuantitativa
¿Distribución normal? > Test de normalidad: 2 test .
Se usa uno uotro según el tamaño de la muestra
Shapiro-Wilk (tamaño muestral pequeño)_><30 pacientes
Kolmogorov-Smirnov (tamaño muestral grande) >30 pacientes
Teorema central del límites a partir de un vºde la muestra jando
tiende a la normalidad.
Graphies Devue FLACONE
Normal Distribution: Mean=120, Standard deviation=12
200 250 300
140
120
150
OS
0
80
100
120
140
100
80
100
120
140
160
2
D
1
2
3
norm quarties
0010 0015
900 0
000 5Descripción univariante: Variable CUANTITATIVA; Distribución NORMAL
Media aritmética: Estadístico de tendencia central
Suma de los datos individuales y división entre el total de los elementos de
la muestra.
X1 + X2 + X3 + ... + Xn
n
Si se repiten los datos, se formarían las frecuencias ..
Σ
1k
i=1
xi * fi
nDescripción univariante: Variable CUANTITATIVA; Distribución
NORMAL
Es sensible a los valores raros.
Media aritmética: Estadístico de tendencia central
0
0
2, 2, 2, 2, 3
= 11€ / 5 personas = 2,2 € / persona
2, 2, 2, 2, 8
= 16€ / 5 personas = 3,2 € / persona
Serplaza la media.