Documento de la Universitat Oberta de Catalunya sobre la relación entre dos variables cuantitativas o numéricas. El Pdf, apto para estudiantes universitarios de Matemáticas, explora conceptos estadísticos como varianza, covarianza y correlación, incluyendo actividades prácticas con datos numéricos.
Ver más32 páginas


Visualiza gratis el PDF completo
Regístrate para acceder al documento completo y transformarlo con la IA.
En los materiales didácticos de este módulo presentamos los contenidos y las herramientas imprescindibles para conseguir los objetivos siguientes:
Relación entre dos variables cuantitativas o numéricas 6 @ FUOC . PID_00284122
Cuando observamos dos variables cuantitativas sobre cada unidad muestral, resulta esencial realizar la representación (x, y), o gráfico de dispersión, de los datos. Primero se identifica una variable con el eje horizontal de abscisas y la otra con el eje vertical o de ordenadas, a continuación se elige la escala sobre cada uno de estos ejes, de manera que los valores observados de ambas variables se adecuen convenientemente al diagrama.
Si hemos de representar dos variables, ¿cuál debería ser x y cuál y? La respuesta dependerá de si se puede considerar que una de las variables depende de la otra. Por ejemplo, si las dos variables son tiempo de ensayo y número de acier- tos, entonces deberíamos elegir el número de aciertos como variable y, ya que pensamos que éstos dependen del tiempo empleado en ensayar. A menudo denominamos a la variable y variable dependiente y a la variable x, variable independiente.
Cuando representamos un gráfico de dos variables cuantitativas obtenemos lo que denominamos nube de puntos. En esta representación esperamos descu- brir alguna estructura en la relación que existe entre las dos variables. El tipo de estructura más simple es aquélla en la que los valores y dibujan una línea aproximadamente recta a medida que x cambia. Para resumir la relación, po- demos encajar una recta en la nube de puntos y cuanto más se ajuste la nube de puntos a una línea recta, mayor será la relación entre las dos variables.
Uno de los términos empleados con más frecuencia al hablar de la relación entre variables es el de correlación. Decimos que dos variables están correlacio- nadas cuando están conectadas o asociadas en algún sentido. Si dos variables se correlacionan, saber el valor de una variable nos proporcionará una idea del valor de la otra.
En este apartado explicaremos el concepto de correlación y una manera espe- cífica de medir la fuerza de la relación entre dos variables: la utilización del coeficiente de correlación.
La correlación es una medida de la fuerza de la asociación entre dos variables. Nuestro interés por la asociación entre dos variables se limita a la asociación lineal que tienen, es decir, a cuánto de próximos a una recta quedan los pun- tos en un gráfico de dispersión. Sin embargo, no se trata del único tipo de asociación que puede establecerse entre dos variables.
En la figura 1 mostramos distintos gráficos de dispersión y los valores corres- pondientes de los coeficientes de correlación. Observad en el último gráfico de dispersión que las dos variables muestran una relación curva muy fuerte, pero la correlación es cero, lo que indica ausencia de relación (esto ilustra el hecho de que la correlación sólo es útil para medir relaciones lineales).
Para calcular el coeficiente de correlación calcularemos previamente otro in- dicador de relación entre las variables: la covarianza. La fórmula de cálculo de la covarianza es:
(xi-X) . (y ;- ) i=1 i=n Sxy = n-1 n-1 SP xy
El numerador de la covarianza se denomina también suma de productos cru- zados (SPxy). La covarianza representa una medida de la dispersión conjunta de dos variables. Observad que si las dos variables son la misma, la fórmula correspondería a la expresión de cálculo de la varianza. Por tanto, podemos decir que la varianza es un caso particular de covarianza de una variable con sí misma.
Un valor cero de covarianza nos indica ausencia de relación entre las variables. Por otro lado, un valor negativo nos indica relación negativa (a mayor valor de una variable le corresponde un valor menor en la otra y viceversa). Un valor
positivo indica relación positiva entre las variables (a mayor valor de una le corresponde mayor valor de la otra y a menor valor en una variable también menor valor en la otra).
El problema que presenta la covarianza es que se encuentra afectada por la unidad de medida, lo que significa que no sabemos a partir de qué valor posi- tivo o negativo, podemos suponer una relación fuerte entre ambas variables.
Una manera de evitar este efecto es calcular un indicador estandarizado, como lo es el coeficiente de correlación momento-producto de Pearson:
Sxy Ixy = Sx . Sy
Como podéis ver en la expresión que acabamos de presentar, el coeficiente de correlación es la covarianza entre las dos variables dividida por el producto de sus desviaciones estándar.
El coeficiente de correlación siempre fluctuará entre -1 y +1 e indicará relacio- nes fuertes conforme el valor se acerque a los extremos. A una nube de puntos aproximadamente lineal con pendiente descendente le corresponderá un va- lor próximo a -1, lo que indicará una relación inversa o negativa.
A una nube de puntos aproximadamente lineal con pendiente ascendente le corresponderá un valor próximo a +1, lo que indicará una relación directa o positiva.
Un valor cero indicará ausencia de relación lineal entre las variables.