Documento de la Universidad Isabel I sobre Unidad didáctica 2. Tablas de frecuencias y representaciones gráficas. El Pdf es una unidad didáctica que introduce las tablas de frecuencias y las representaciones gráficas en estadística, incluyendo organización de datos, variables y creación de gráficos para Psicología.
Ver más31 páginas


Visualiza gratis el PDF completo
Regístrate para acceder al documento completo y transformarlo con la IA.
Grado en Psicología Métodos Matemáticos para la Estadística Unidad didáctica 2. Tablas de frecuencias y representaciones gráficas
2.1.1. Organización de los datos: creación de bases de datos 2.1.2. Formatos de archivo 2.1.3. Importación/exportación archivos 2.1.4. Software de análisis de datos
2.2.1. Exploración preliminar 2.2.2. Identificación de variables 2.2.3. Importación del fichero
2.3.1. Frecuencia absoluta y frecuencia relativa 2.3.2. Frecuencias acumuladas 2.3.3. Construcción de intervalos 2.3.4. Tabla de frecuencias
2.4.1. Variables cualitativas nominales y ordinales 2.4.2. Variables cuantitativas: age (edad) 2.4.3. Variables cuantitativas: glucose (glucosa) 2.4.4. Variables cuantitativas: intervalos de distinta amplitud
2.5.1. Gráficos de sectores 2.5.2. Pictogramas 2.5.3. Diagrama de rectángulos 2.5.4. Variables cuantitativas 2.5.5. Diagrama de barras 2.5.6. Histograma 2.5.7. Polígono de frecuencias Resumen Mapa de contenidos Recursos bibliográficos
En la primera unidad didáctica se ha introducido el concepto de estadística y se ha hablado de la recolección de los datos. En este punto, el investigador ya dispone de los datos. En esta unidad didáctica vamos a hablar de qué hacer ahora con esos datos.
Disponer de cientos o miles de datos en bruto es solo un primer paso. En bruto, no sirven para extraer conclusiones y tomar decisiones.
El Instituto Nacional de Estadística (en adelante, INE) continuamente realiza estudios estadísticos con datos obtenidos a través de encuestas. Mediante dichas encuestas recoge decenas o centenares de variables demográficas, nivel socioeconómico, gustos, percepción de la economía, etc., de centenares o miles de personas.
Se trata de un estudio descriptivo donde el INE describe cómo es la sociedad.
Un investigador recoge datos sobre distintas personas, como, por ejemplo, edad, nivel socioeconómico, hábitos, antecedentes familiares, y estudia si con el paso del tiempo esas personas han enfermado o no, por ejemplo, del corazón.
Se trata de un estudio inferencial donde el investigador trata de encontrar variables que puedan tener influencia en tener o no una enfermedad del corazón.
Esta segunda unidad va a tratar sobre la ordenación, tabulación y representación gráfica de los datos que nos va a llevar a ese primer entendimiento global de lo que está ocurriendo. Mientras que en la unidad anterior la mayoría de los contenidos eran teóricos, en esta unidad vamos a empezar a trabajar de una manera aplicada con datos. La unidad se organiza en tres grandes apartados.
· La organización en un fichero de datos o base de datos de los datos recogidos. Se hablará de los tipos de ficheros más comunes para guardar la información y trabajar con ella, además de los programas informáticos de uso más común en estadística. . La organización de los datos en tablas resumen que faciliten la lectura e interpretación de los resultados. · La representación gráfica de los datos que permita extraer conclusiones de manera visual e intuitiva.
Estos conceptos se trabajarán con datos obtenidos de Kaggle; en concreto, de una base de datos donde se recogieron diversas variables de una serie de personas y, pasados diez años, se comprobó si habían tenido problemas de corazón.
En el material complementario esta el fichero de datos que usaremos tanto para esta unidad como para unidades posteriores. A partir de ahora, a este fichero de datos nos referiremos como «fichero de enfermedades del corazón». Se utilizará Excel (o similar) como programa básico para el análisis de los datos, pero será necesario que el alumno se empiece a familiarizar con un software más específico de análisis estadístico como PSPP o SPSS.
Recolección Organización de datos
Figura 1. El primer paso tras la recolección de los datos (Unidad didáctica 1) es su almacenamiento en una base de datos para que la información esté estructurada y sea sencillo el tratamiento de estos.
Antes de realizar cualquier tipo de análisis de los datos, es necesario llevar a cabo su codificación (véase tabla 1), para lo cual debemos hacer lo siguiente:
Nota En el curso se hablará de manera indistinta de fichero de datos y de base de datos. En un ambiente más específico de manejo de datos masivos, una base de datos hace referencia a información con miles o millones de registros y cientos o miles de variables distintas distribuidas en distintas tablas.
Una vez recolectados los datos necesarios, es importante organizarlos y agruparlos, confeccionando así una base de datos en la que guardar los valores de las variables (columnas) para cada uno de los casos (filas). Tenemos a nuestra disposición diversos programas informáticos en los cuales generar bases de datos para su posterior análisis. Algunos programas son específicos para el análisis de datos (R, SPSS, PSPP, STATA, etc.), y otros, más genéricos, como Microsoft Excel o Google Sheets. Tanto unos como otros tienen ventajas e inconvenientes, y la decisión final sobre cuál es el más adecuado se basará en diversos criterios, como los de disponibilidad, conocimientos previos y facilidad de uso.
En las bases de datos abiertas que nos podemos encontrar es necesario conocer los distintos formatos de archivos antes de trabajar con ellos. Dependiendo de la herramienta que vayamos a emplear para realizar el estudio, puede que nos interese un formato de archivo u otro. Actualmente, es muy habitual poder descargar los mismos datos en distintos formatos.
Llega más lejos Busca otros formatos de archivo que podemos encontrar en las bases de datos abiertas.
Algunos de los tipos de archivos que nos podemos encontrar son los siguientes:
Se trata de archivos de datos en formato texto cuyas columnas vienen separadas por comas o puntos y coma, y las filas se separan empleando saltos de línea.
Archivo de texto que contiene los datos. No hay un estándar específico para la delimitación de columnas y filas.
Se trata del formato de archivo con el que trabaja el programa Excel. En estos archivos puede aparecer la problematica de la incompatibilidad del archivo con versiones antiguas del programa.
Es el formato de archivo de datos empleado por los programas SPSS o PSPP. Al tratarse también de un formato privado, pueden existir problemas de incompatibilidad de versiones.
Se trata de archivos creados empleando el lenguaje XML, que regula el almacenamiento de datos empleando marcas (etiquetas), de forma que los datos se muestren de una forma legible.
Es un formato de archivo diseñado para el intercambio de datos que se emplea habitualmente para el desarrollo de aplicaciones informáticas y para el tráfico de datos en la web. Consta de etiquetas y caracteres específicos para clasificar los datos dentro del archivo.
El hecho de que los datos se encuentren en uno u otro formato no quiere decir que tengamos que emplear una herramienta específica para su análisis. Los archivos .csv./txt son los de tipo más general y que aparecen de una manera más extendida. La gran mayoría de las herramientas informáticas de análisis estadístico van a permitir la importación y exportación de datos a partir de estos archivos. En cambio, puede haber algo más de problema en los archivos dependientes de un programa concreto.
Llega más lejos Es importante conocer como se almacenan los datos en los formatos XML o JSON. Os animo a que abráis un archivo de este tipo, si no es de tamaño excesivamente grande, empleando un simple editor de texto (Notepad, Bloc de notas ... ).
Para trabajar con herramientas que no sean la propietaria del formato, es posible que tengamos que emplear conversores de formatos, bien que se encuentren en las mismas herramientas, o bien empleando otros programas. Por último, los archivos con formatos XML o JSON están diseñados para el manejo de datos de una forma más específica y habitualmente son empleados por aplicaciones o dispositivos informáticos que procesan la información de forma programada.
Hablamos de importar un archivo cuando queremos usar unos datos con una herramienta de análisis, pero el formato de esos datos no está en el formato nativo de esa herramienta. Así, por ejemplo, si desde Excel queremos usar unos datos en formato XLSX, que es formato Excel, hablamos de abrir el fichero. Si los datos estan en formato CSV, hablamos de importar, porque no es el formato nativo de Excel.
Analogamente, hablamos de exportar cuando queremos transformar el formato de un archivo a un formato que no es el nativo de la herramienta que estamos usando. Si desde Excel queremos guardar unos datos en formato CSV, entonces hablamos de exportar. Si los queremos guardar en formato XLSX, hablaremos simplemente de guardar.
Tal y como se ha comentado anteriormente, la herramienta que emplearemos para el tratamiento estadístico de los datos a lo largo del curso es Microsoft Excel principalmente. Para la exportación de datos, el principal requisito es saber qué elemento vamos a emplear para separar los datos, principalmente en cuanto a la separación de columnas. También es importante saber cuál es el separador decimal, porque puede generar problemas en la importación de datos. Por otro lado, además del formato en el que se encuentren las diferentes columnas de datos, es necesario comprobar si en la primera fila del archivo se encuentran las cabeceras que informen de los datos que se encuentran en la respectiva columna.
En los recursos de la unidad didáctica podéis encontrar un manual detallado de los pasos que se deben seguir para realizar la importación y exportación de datos empleando un archivo obtenido de una base de datos abierta.