Bioestadística: Regresión y correlación lineal con ejemplos en R

Diapositivas de Universidad sobre Bioestadística. El Pdf, enfocado en Matemáticas para Universidad, aborda la regresión y correlación lineal, incluyendo una introducción, ejemplos resueltos y la aplicación de código R para el análisis de datos.

61 páginas

Bioestadística

Tema 9

Regresión y correlación lineal

José Antonio Roldán Nofuentes

Catedrático de Universidad

Departamento de Estadística e I.O.

1. Introducción

En este tema se estudia el problema de la relación entre dos variables

cuantitativas, por ejemplo:

 ¿Está la densidad de masa ósea en el fémur relacionada con la

edad del paciente?

 ¿Está el nivel de colesterol LDL relacionado con el nivel de

colesterol HDL?

La primera cuestión será tratar de probar que ambas variables están

relacionadas. En el caso de que lo estén, la siguiente cuestión será

investigar cómo están relacionadas, es decir, encontrar una ecuación

matemática que las relacione, así como predecir una variable en

función de la otra. Otra cuestión importante es estudiar la fuerza de

la relación entre las dos variables.

Vista previa

Introducción a la Regresión y Correlación Lineal

En este tema se estudia el problema de la relación entre dos variables cuantitativas, por ejemplo:

¿Está la densidad de masa ósea en el fémur relacionada con la edad del paciente?
¿Está el nivel de colesterol LDL relacionado con el nivel de colesterol HDL?

La primera cuestión será tratar de probar que ambas variables están relacionadas. En el caso de que lo estén, la siguiente cuestión será investigar cómo están relacionadas, es decir, encontrar una ecuación matemática que las relacione, así como predecir una variable en función de la otra. Otra cuestión importante es estudiar la fuerza de la relación entre las dos variables.

Regresión Lineal

El estudio de la relación entre dos variables cuantitativas se visualiza mediante una representación gráfica en un plano cartesiano: cada variable se representa en un eje, las unidades o individuos se representan mediante puntos en el plano y la relación entre ellas se representa mediante una curva.

Por ejemplo, si un objeto se mueve a una velocidad constante v, el espacio recorrido (e) depende del tiempo (t), siendo la relación e=vxt y cuya representación gráfica es:

Relación entre el espacio recorrido (e) y el tiempo (t), para una velocidad v constante.

- e e=vt t

En este ejemplo, si se conoce el valor de t entonces se conoce el valor de e. Este tipo de relación se denomina determinística o funcional, pues una de las variables es función matemática de la otra.

En Medicina y Ciencias de la Salud, no suele ocurrir que la relación entre dos variables cuantitativas sea determinística, sino que la relación es de otro tipo. Ejemplo:

Se pretende estudiar la relación entre el índice de desgaste (ID) de una determinada articulación y la edad del paciente. Para ello se ha seleccionado una m.a. de 24 pacientes y en todos ellos se han observado las dos variables. Los datos se muestran en la siguiente tabla:

Indice de desgaste (ID) y edad en una muestra de individuos.

Individuo 1 2 3 4 5 6 7 8 9 10 11 12 Edad (X) ID (Y) 42 38 54 25 46 40 26 60 48 27 50 30 64,1 63,8 81,1 37,5 77,7 70,5 45,8 98,6 83,6 58,3 70,4 55,4 Individuo 13 14 15 16 17 18 19 20 21 22 23 24 Edad (X) 53 35 62 37 43 35 58 44 34 51 55 32 ID (Y) 85,5 70,2 88,3 56,4 83,0 58,4 86,7 65,3 47,4 84,6 97,9 59,0

Este es el ejemplo que se va a utilizar para ilustrar este Tema.

Relación de un índice de desgaste de una articulación (ID) con la edad.

En el siguiente gráfico se muestra la relación entre el índice de desgaste (ID) de la articulación y la edad del paciente:

Índice de desgaste (ID) 90- 80- 70- . . 60- . 50- 40- · 30 40 50 60 Edad

En este gráfico cada paciente se representa por un punto cuyas coordenadas son la edad (eje x) y el ID (eje y). Se puede observar que los puntos tienen una tendencia lineal (representada con la recta de color rojo).

En este ejemplo la relación no es determinística, pues dos pacientes con la misma edad no tendrán, en general, el mismo ID. Por tanto, conocida la edad de un paciente no se conocerá con exactitud su ID, pero la relación existente permite tener un cierto conocimiento de cuánto valdrá su ID (su valor se situará alrededor de la recta).

A una relación entre dos variables cuantitativas como la de este ejemplo se le denomina relación aleatoria. Al gráfico anterior se le denomina gráfico de dispersión y al conjunto de puntos se le denomina nube de puntos.

A las variables se las denota como X (variable independiente) e Y (variable dependiente), y el principal objetivo es estudiar la dependencia lineal de Y en función de X. En un estudio de regresión puede ocurrir que X sea la causa de Y, que ambas se influyan mutuamente o que ambas dependan de otra tercera variable no considerada en el estudio.

Para estudiar la relación entre X e Y se necesita observar ambas variables en una m.a. de n individuos u objetos, obteniéndose la tabla:

Tabla de Variables X e Y

Individuo 1 2 . . . n Variable X X1 X2 . . . Xn Variable Y y1 y2 . . . yn

Por tanto se tienen n pares de datos (xi, Vi), i = 1,2 ... , n, donde xi es el valor de X en el i-ésimo individuo e yi es el valor de Y en el i- ésimo individuo. La representación gráfica de estos n pares de valores da lugar al gráfico de dispersión, y si en este gráfico se observa una tendencia lineal entonces se dice que hay relación lineal, o regresión lineal en términos estadísticos.

Cuando se estudia la relación lineal entre dos variables X e Y, la metodología estadística se denomina regresión lineal simple, y la recta se denomina recta de regresión.

Regresión Curvilínea

La relación entre X e Y también puede ser de otro tipo, por ejemplo curvilínea:

Y · · . · X

En este Tema solamente se estudia la regresión de tipo lineal, pues es la más sencilla que puede existir entre dos variables.

Ausencia de Regresión Lineal

También puede ocurrir que la nube de puntos esté distribuida al azar en el plano: cuando X aumenta, la variable Y no tiende ni a aumentar ni a disminuir. En esta situación la tendencia lineal se representa mediante una recta horizontal, y se dice que no existe regresión lineal. Gráficamente:

Y X

Ecuación de una Recta

Para comprender e interpretar una recta de regresión es necesario comprender previamente la ecuación de una recta. La forma más sencilla de expresar una recta es mediante la ecuación Y = a + bX donde a y b son los coeficientes de la recta. El coeficiente a es la constante u ordenada en el origen, y es el valor de la variable Y cuando X = 0. El coeficiente b es la pendiente de la recta y es el número de unidades que aumenta Y por cada unidad que aumenta X.

Ejemplos:

: Y = 3 + 2X, entonces Y = 3 cuando X = 0, y la variable Y aumenta 2 unidades por cada unidad que aumenta X

Y=3+ 2X Y b=2 T a=3 X

Y = 18 - 3X, entonces Y = 18 cuando X = 0, y la variable Y disminuye 3 unidades por cada unidad que aumenta X

Y=18-3X Y X

Cálculo de la Recta de Regresión

Una vez observadas las variables X e Y en todos los individuos de una m.a. de tamaño n, es necesario calcular la recta de regresión, esto es, calcular los coeficientes a y b. Para ello se utiliza un método estadístico denominado método de mínimos cuadrados. Este método se basa en minimizar la suma de los cuadrados de las distancias verticales de los puntos a la recta. A estas distancias verticales se las denomina residuos o residuales y se representan como e ¡. Por tanto, el método de mínimos cuadrados consiste en min Le' n i=1

Representación gráfica de las residuales ei-

Gráficamente:

Índice de desgaste (ID) 1 90 i Vi 1 lei 1 Y 60 1 50 40 30 40 Xi 50 60 Edad

Cálculos en Regresión Lineal

Los cálculos necesarios para calcular (estimar) la recta de regresión se muestran en el siguiente cuadro:

Cálculos (estimaciones) en regresión lineal.

Cálculos básicos en regresión y correlación lineal: Σκ; Σχ; Σκ; Ση; Σxν,; x; j (ΣΧ) 2 xx n n (Σy.) 2 - n Recta de regresión: Ŷ=a+bX S S xx b = xy a= y-bx Varianza de regresión: $2 = 1 n-2 yy S2 xy S xx

donde: " Sxx es la suma de cuadrados de X · Syy es la suma de cuadrados de Y Sxy es la suma de cuadrados de X por Y · s2 es la varianza de regresión muestral, y mide la variabilidad de los puntos respecto a la recta calculada. Se expresa en las unidades de la variable Y elevadas al cuadrado. También se puede escribir como: .2 1 n-2 i=1 Σ n e.

Ejemplo de Cálculos para ID y Edad

Para los datos del ejemplo, los cálculos son: Ex; = 42 + 38 4 .. +32 = 1025 , x = 42.7083 _x2 = 422 + 382 +. + 322 = 46601 Ly; = 64.1+63.8+ + 59.0 = 1689.5 , y = 70.3958 Ey? = 64.12 + 63.82 + + 59.02 =125169.03 + 32 × 59.0 = 75966.8 x.y: = 42×64.1+38×63.8+ Sxx = 46601- 10252 24 = 2824.96 1689.52 Syy =125169.03- = 6235.27 24 1025×1689.5 Sxy = 75966.8- =3811.07 24 s2 = - 1 X 6235.27 - 3811.072 2824.96 1 22 3811.07 2824.96 = 49.7213 S =149.7213 = 7.0513 b= =1.34907 ~1.35a=70.3958-1.34907×42.7083=12.7793~12.78

Recta de Regresión Muestral

La recta de regresión muestral, más adelante denominada recta de regresión estimada, es: Y = 12.78 + 1.35X En esta recta calculada se escribe Y en lugar de Y. La interpretación de los parámetros de esta recta de regresión es:

El ID vale 12.78 cuando el paciente tiene 0 años. En este ejemplo, no tiene sentido interpretar este valor
Por cada año que aumenta la edad del paciente, el ID aumenta en promedio 1.35 unidades

Supuestos del Modelo de Regresión

Al igual que en temas anteriores algunos métodos estadísticos requieren de supuestos (por ejemplo: normalidad de la variable) para poder ser aplicados, el modelo de regresión lineal simple requiere de unos supuestos para poder aplicar los métodos de inferencia que se verán más adelante.

El modelo de regresión lineal hace referencia a la población de la cuál se ha extraído la m.a. de n individuos. Por tanto la recta calculada a partir de esta m.a. es la recta estimada de una recta de regresión en la población objeto de estudio. En la población objeto de estudio existe por tanto una recta (poblacional) que relaciona la variable Y en función de la variable X, y cuya expresión es Y= a + BX

donde · a es la constante de la recta poblacional · ß es la pendiente de la recta poblacional Estos dos parámetros son por tanto desconocidos pues son parámetros poblacionales. Estos parámetros deben ser estimados.

A la recta de regresión Y = a + BX se la denomina recta de regresión de Y sobre X.

A la recta de regresión X = a' + 'Y se la denomina recta de regresión de X sobre Y.

En ambas rectas se verifica que a + a' y B = B'.

Recta de Regresión Poblacional

Para el ejemplo del ID y la edad, el siguiente gráfico representa la recta de regresión poblacional, donde la zona sombreada representa la nube de puntos de todos los individuos de la población:

Nube de puntos (en color gris) y recta de regresión poblacional Y=a+BX. Y a+Bx X

Supuestos del Modelo de Regresión Lineal

Los supuestos del modelo de regresión de Y sobre X se presentan en el siguiente cuadro:

Modelo de regresión lineal.

Supuestos del modelo de regresión lineal: 1. Linealidad: La representación gráfica de la nube de puntos, en mayor o menor medida, sigue una tendencia lineal en alguna dirección. 2. Igualdad de varianzas: Para cada valor de X, la varianza de Y es la misma. 3. Normalidad: Para cada valor de X, la variable Y sigue una Normal. 4. Aleatoriedad: Datos muestrales aleatorios.

Si se verifican estos supuestos para el modelo de regresión de Y sobre X, no necesariamente se verifican para el modelo de regresión de X sobre Y.

A continuación se analiza cada supuesto.

¿Non has encontrado lo que buscabas?

Explora otros temas en la Algor library o crea directamente tus materiales con la IA.