Diapositivas sobre análisis de relaciones y estadística bidimensional. El Pdf, un recurso para universitarios de Matemáticas, explora conceptos clave como variables unidimensionales y bidimensionales, tablas de frecuencia y diagramas de dispersión, así como el planteamiento de hipótesis y la interpretación del valor Chi-cuadrado.
Ver más43 páginas


Visualiza gratis el PDF completo
Regístrate para acceder al documento completo y transformarlo con la IA.
GRADO SUPERIOR EN DOCUMENTACIÓN Y ADMINISTRACIÓN SANITARIASINTRODUCCIÓN En este capítulo vamos a analizar la relación entre dos variables unidimensionales, X e Y, sobre cada uno de los individuos de una población o muestra. Estudiaremos modelos para investigar si una variable puede explicar o influir sobre otra variable. Para examinar los datos emplearemos herramientas similares que en estadística unidimensional. Primero organizaremos los datos en tablas de frecuencias. Después, representaremos los pares de valores cuantitativos mediante un diagrama de dispersión y, si la correlación es fuerte, a partir de una variable independiente o explicativa aprenderemos a predecir el valor de una variable dependiente o respuesta.
Numerosos estudios estadísticos buscan relaciones entre dos variables. Una distribución bidimensional está formada por un conjunto de pares de valores (X, Y) de dos variables cuantitativas X e Y. Cada par de valores representa los datos de un individuo que se organizan en una tabla.
72 76 59 68 60 58 70 65 54 83 64 66 61 66 57
9 10 6 8 10 5 8 7 4 11 7 7 6 8 5
Al representar gráficamente los valores (X, Y) en un diagrama cartesiano, llamado diagrama de dispersión, se muestra la relación entre dos variables cuantitativas medidas en los mismos individuos, de modo que cada punto tendrá un par de coordenadas (X, Y) que corresponde a los valores observados para cada variable. El punto de inserción entre ejes es el origen de coordenadas. y A 100- 90 NOTA 80 70 60- < 0 1 2 3 4 5 6 × HORAS TRABAJADAS
La variable explicativa (X) o variable independiente causa o explica cambios en la variable respuesta (Y) y se representa sobre el eje de las abscisas o eje horizontal (x). La variable respuesta (Y) es una variable dependiente porque su valor depende del valor de la variable explicativa (X). Mide el resultado de un estudio. Se representa sobre el eje de las ordenadas o eje vertical (y). Si no se puede distinguir entre variable explicativa y variable respuesta, cualquiera de las dos puede representarse en el eje de las abscisas. ¡Recuerda!
El estadístico covarianza mide la variabilidad o dispersión entre dos variables cuantitativas continuas X e Y e indica la relación lineal entre ellas. S ...= xy Z(x-x)(y ;- )) n-1
Si la covarianza es positiva, la relación lineal es directa. Significa que cuando (X) aumenta, (Y) también tiende a aumentar. Y cuando (X) disminuye, (Y) también tiende a disminuir. Las dos variables se mueven en la misma dirección.
Si la covarianza es negativa, la relación lineal es inversa. Significa que cuando (X) aumenta, (Y) tiende a disminuir. Y cuando (X) disminuye, (Y) tiende a aumentar. Las dos variables se mueven en direcciones opuestas.
Si la covarianza es 0, significa que no hay una relación lineal clara entre las dos variables, es decir, no se mueven de manera predecible una respecto a la otra.
El signo de la covarianza informa sobre la dirección de la relación entre las variables, es decir, si el aspecto de la nube de puntos es creciente o no, pero para medir la fuerza de esta relación se emplea el estadístico coeficiente de correlación lineal de Pearson. r =- 1 -1<r<0 r= 0 0<r< 1 r =1
La correlación mide la fuerza y la dirección de la relación lineal que existe entre las dos variables cuantitativas que intervienen en una distribución bidimensional. En caso de que los cambios de una de ellas influyan en la otra, diremos que las variables están correlacionadas. Cuando el diagrama de dispersión muestra una nube de puntos muy agrupados en torno a una recta, se dice que existe una fuerte relación lineal entre las dos variables. 60 50 40 - 30 20 10 0 1 2 3 4 5 6 7
El coeficiente de correlación lineal de Pearson r indica el grado o fuerza de asociación o relación, de dos variables. r nos indica si los puntos tienen tendencia a disponerse alineadamente. La correlación no hace distinción entre variable explicativa y variable respuesta. La fórmula del coeficiente de correlación de Pearson es: r = E(Xi -X)(Yi - Ÿ) VE(Xi -X)22(Yi -Y)2
La relación lineal entre las variables puede ser directa, o inversa, o simplemente no existe relación, en cuyo caso se dice que están incorreladas.
Correlación directa. Se da cuando al aumentar una de las variables, la otra aumenta. La recta es creciente. r = 0,2 r = 0,8 r =1 Correlación positiva débil Correlación positiva fuerte Correlación positiva perfecta
La relación lineal entre las variables puede ser directa, o inversa, o simplemente no existe relación, en cuyo caso se dice que están incorreladas.
Correlación inversa. Al aumentar una de las dos variables, la otra disminuye. La recta es decreciente. r =- 1 r = - 0,8 r = - 0,3 Correlación negativa perfecta Correlación negativa fuerte Correlación negativa débil
La relación lineal entre las variables puede ser directa, o inversa, o simplemente no existe relación, en cuyo caso se dice que están incorreladas.
Correlación nula. No hay dependencia alguna entre ambas variables. Se dice que están incorreladas. r = 0 Correlación nula
Las características más importantes del coeficiente de correlación son:
La correlación se ve muy afectada por la presencia de observaciones atípicas, por la variabilidad del grupo o por una tercera variable que pueda enmascarar los resultados.
Por ejemplo, si medimos el salto de longitud en un grupo homogéneo, es fácil que r no sea muy elevado. Sin embargo, si elegimos un grupo heterogéneo con personas de diferentes alturas, obtendremos un coeficiente r mayor, que indica que, a mayor altura, mayor es el salto de longitud.
También puede influir una tercera variable. Por ejemplo, puede haber una alta correlación entre el coeficiente intelectual y las notas obtenidas. Sin embargo, otras variables pueden afectar, como son el grado de interés o el tiempo libre. Most Interested/Interested/Least Interested REPORT CARD Maths C. Biology B Literature Music B P. E. B English B Art
No existe una relación causa-efecto. La mejor manera de evidenciar este hecho es hacer un experimento en el que la variable explicativa (X) se va modificando, mientras se controlan las posibles terceras variables que pueden influir en la variable respuesta. T
El coeficiente de correlación lineal de Pearson indica únicamente que dos variables independientes varían conjuntamente, pero esta variación conjunta no indica necesariamente que exista causalidad entre ambas. Para saber si la asociación entre variables es estadísticamente significativa, es decir, que la relación no se debe al azar, se hace una prueba de significación. Se emplean las tablas de significación de r para descartar que la correlación hallada sea debida al azar. Para simplificar, solo utilizaremos las tablas con una seguridad del 95%.
El coeficiente r es un estimador (coeficiente r calculado) que lo comparamos con el coeficiente r de la tabla de significación. Si el valor r calculado > r tabla, afirmaremos que la asociación estadística es significativa con una seguridad del 95% (o del 99%, según el valor de la tabla con que comparemos). El coeficiente r de Pearson de la tabla varía según el nivel de seguridad o nivel de confianza y de los grados de libertad. Para calcular los grados de libertad empleamos la siguiente fórmula: g.l. = n - 1
Si existe una correlación lineal fuerte entre dos variables numéricas, la regresión permite obtener la ecuación matemática que mejor describe la relación entre las variables. Se busca la ecuación de la recta que mejor representa a todos los puntos del diagrama de dispersión (línea de tendencia) y que permite predecir el valor de una variable a partir de los datos conocidos de otra variable con la que está relacionada. La recta describe cómo cambia una variable respuesta (Y) a medida que cambia una variable explicativa (X).
En el modelo de regresión lineal simple, dadas dos variables, X e Y (siendo X la variable independiente o explicativa, e Y la variable dependiente o respuesta), buscamos encontrar la ecuación de una recta que permite predecir o aproximar el valor (Y) a partir de un valor (X). Pero la relación lineal entre las variables no es exacta, entonces mediante la técnica de estimación mínimo cuadrática (ajuste por mínimos cuadrados), que es un modelo lineal de regresión, podremos encontrar la mejor recta para predecir los valores de Y, en función de los de X, con un error residual medio nulo al hacer esa aproximación.