Regresión lineal: análisis de correlación y diagramas de dispersión

Documento de Universidad San Sebastian sobre Regresión lineal. El Pdf aborda la regresión y correlación, diagramas de dispersión, distribuciones marginales y condicionadas, con un ejemplo práctico. Es un material de Matemáticas para Universidad.

Ver más

16 páginas

Apunte de contenido
Regresión lineal
USS
Facultad de Economía y Gobierno
Santiago, Chile
Pág. 2
1. Regresión lineal
1.1 Regresión y correlación
El análisis de regresión que trata de establecer la forma de la relación
entre variables, es decir se trata de encontrar una relación funcional, que para
el caso de dos variables será de la forma
)X(fy =
, de manera que se pueda
calcular el valor de una variable de acuerdo con el valor que tome la otra
variable.
El análisis de correlación que trata de establecer el grado de relación
entre dos variables, es decir se trata de medir que tan relacionadas están las
variables.
1.2 Diagramas de dispersión
Todo punto en el plano se expresa como
( )
y,x
en forma general un punto conocido se
designa por
( )
ii
y,x
. Al conjunto de puntos en el
plano se le llama Nube de puntos.

Visualiza gratis el PDF completo

Regístrate para acceder al documento completo y transformarlo con la IA.

Vista previa

Regresión lineal

Regresión y correlación

El análisis de regresión que trata de establecer la forma de la relación entre variables, es decir se trata de encontrar una relación funcional, que para el caso de dos variables será de la forma y =f(X), de manera que se pueda calcular el valor de una variable de acuerdo con el valor que tome la otra variable.

El análisis de correlación que trata de establecer el grado de relación entre dos variables, es decir se trata de medir que tan relacionadas están las variables.

Diagramas de dispersión

Todo punto en el plano se expresa como (x,y) en forma general un punto conocido se designa por (x),y;). Al conjunto de puntos en el plano se le llama Nube de puntos.

176 174 172 172 17 1 188 145 108

Tipo de regresión

En el análisis de regresión se procura conocer una ecuación o función que exprese la relación entre dos variables, sin embargo, debido a que existirán diversidad de ecuaciones posibles, debe buscarse aquella que mejor la representela relación.

Regresión lineal simple

Cuando los puntos de un diagrama de dispersión se tratan de expresarlos por una recta, se llama regresión lineal simple. (Regresión lineal).

De acuerdo con el diagrama de dispersión, donde se ubicaron todos los puntos conocidos, se aprecia que es posible insertar una recta que está razonablemente cercana a todos los puntos.

15 10 -20 -10 10 20 30 40 50 60

La ecuación debe ser de la forma y = a + bx

Regresión lineal múltiple

Si las variables son tres o más y se trata de expresarlas por una ecuación lineal de varias variables, se llama Regresión lineal Múltiple.

En el caso de tres variables, de acuerdo con el diagrama de dispersión en el espacio, se trata de hallar la ecuación del plano, como se muestra en la imagen. La ecuación por obtenerse en este caso tiene la forma y = a + bx1 + CX2

Predición ventas . TV y Radio 25 20 15 20 10 30 20 50 100 158 200 2 900 0

Regresión no lineal

Cuando a los puntos de un diagrama de dispersión se trata de expresarlos por una ecuación de una curva cualquiera, se efectúa el análisis de regresión no lineal.

ira:

Distribución Bidimensional

En la práctica surge la necesidad de analizar el conjunto de dos o más variables.

Por ejemplo, puede ser necesario estudiar la altura y el peso de un grupo de personas, donde x es la variable relativa al peso, Y es la variable relativa a la estatura.

Para analizar en forma conjunta a las variables X, Y se considera el par (x, y) como una sola variable, llamada Variable estadística bidimensional, se llama también variable bivariante.

De forma equivalente la terna ordenada (x, y, z) se llamará variable estadística tridimensional y así sucesivamente.

La variable estadística bidimensional, (x, y) se clasifica de acuerdo con el carácter de cada una de las variables x, Y que pueden ser de carácter cualitativo, cuantitativo discreto y cuantitativo continuo.

Variable bidimensional

  • cualitativa - cualitativa
  • cualitativa - cuantitativa
  • cualitativa - cuantitativa discreta
  • cualitativa - cuantitativa continua
  • cuantitativa discreta - cuantitativa discreta
  • cuantitativa - cuantitativa cuantitativa discreta - cuantitativa continua
  • cuantitativa continua - cuantitativa continua

Ejemplos de variables

  • Dos caracteres cualitativos: - Educación y Religión.
  • Una cualitativa y otra cuantitativa discreta: - Educación y número de hijos.
  • Una cualitativa y otra cuantitativa continua: - Educación y Estatura.
  • Dos cuantitativas discretas: Número de autos y número de accidentes.
  • Una discreta y otra cuantitativa continua: - Número de alumnos, peso.
  • Dos cuantitativas continuas: - Peso y altura.

Si (x, y) es una variable bidimensional donde los distintos valores que toman X, Y son:

X:X1,X2,X3 ...... X k Y : Y1, Y2,Y 3 ........... Y.K

Datos Y

Y1 Y2 ;.... .... Y total Datos X 1 f1 f12 .. ... f 1 l X2 f21 f22 f 2 l X3 . . ... f1. f2. f3. ,. ... fi .. f. k ÍK1 f f k • total f. f.2 f. ... f. n

Donde:

  • fi Es el número de veces que se presenta el par (X,Y )será la frecuencia absoluta del par. Para todo i = 1,2, ...... k ; k = 1,2,3 ....... , /
  • f1. = >fij Es el total de pares donde el primer componente toma los j=1 l valores fijos de X|,i = 1,2, ..... k se llama Frecuencia marginal del valor Xi
  • k f.) = >fij Es el total de pares donde el segundo componente toma j=1 los valores fijos de Y , j = 1,2, ..... / se llama Frecuencia marginal del valor Y;
  • n = >>f, Es la frecuencia total de los pares ordenados (X), Y;) k l i=1 j=1

Ejemplo de créditos de consumo

La tabla nos muestra el total de créditos de consumo solicitado por un grupo de clientes de cierta financiera, agrupadas por monto y tasa de interés aplicada respectivamente, si se definen las variables estadísticas:

X: "Monto de los préstamos solicitados por los clientes de la financiera en pesos".

Y: "Tasa de interés mensual que cobra la financiera".

Y X 2% 3% 4% 5% 500.000 ≤ X < 600.000 8 0 8 0 16 600.000 ≤ X < 700.000 0 16 0 8 24 700.000 ≤ X ≤ 800.000 16 0 24 0 40 total 24 16 32 8 80

De la tabla podemos observar que:

  1. El total de préstamos solicitados es 80.
  2. Los préstamos solicitados por menos de $700.000 a una tasa de interés de más del 4% mensual es de 8 préstamos.
  3. Los préstamos solicitados a tasa de interés al 4% mensual es de 32 préstamos.
  4. Los préstamos solicitados por un monto entre 500.000 y 600.000 es de 16 préstamos.
  5. Los préstamos solicitados a una tasa por menos de 4% y montos de al menos $600000 es de 32 préstamos.
  6. El número de préstamos de 600.000 ≤ X < 700.000 a una tasa del 3% es de 16 préstamos.

Distribución Marginal

La tabla que muestra a la variable X con sus frecuencias marginales, se llama distribución marginal de la variable X. Similarmente la tabla que representa a la variable Y con sus frecuencias marginales, se llama distribución marginal de la variable Y.

Distribución marginal de X

Datos X f. X1 f1. X. 3 f3. XK f k • total k n = >f. i=1

Distribución marginal de Y

Datos Y f, Y, f.1 Y, f.2 Y3 f. f. YK f. total l n = >f.j j=1

Distribución Condicionada

La distribución de frecuencia absoluta condicionada de la variable X, cuando la otra variable toma el valor Y , se expresa por f X Y = Y; 1 está dada por la columna j, de la tabla de distribución bidimensional de doble entrada.

La distribución de frecuencia absoluta condicionada de la variable Y, cuando la otra variable toma el valor X, , se expresa por f Y X = X está dada por la fila i , de la tabla de distribución bidimensional de doble entrada.

X2 f2. f.

La Covarianza

Una medida del grado de asociación entre las variables X, Y es la covarianza poblacional.

La covarianza es el valor que refleja en que cuantía dos variables aleatorias varían de forma conjunta respecto a sus medias.

Nos permite saber cómo se comporta una variable en función de lo que hace otra variable. Es decir, cuando X sube ¿Cómo se comporta Y? Así, la covarianza puede tomar los siguientes valores:

  • COV(XY) <0 X aumenta, Y disminuye o viceversa. Hay una relación negativa.
  • COV(XY ) > 0 X e Y aumentan o disminuyen simultáneamente. Hay una relación positiva
  • COV(XY ) = 0 Cuando no hay relación existente entre las variables X e Y.

Cálculo de Covarianza

K 1 1 l ΣΣ;(x,-x)Y,-γ) COV(XY) = K ΣΣΧ;Υ; n n COV(XY) = 1 1 - X . Y = xy - xy

Propiedades de la covarianza

A la hora de trabajar con ella las propiedades que tiene y que se deducen de la definición misma de covarianza:

  • COV(X,b) = 0
  • COV(X, X) <Var(x)
  • COV(X,Y) =COV(Y, X)
  • COV(bX,cY) = cbCOV(X,Y)
  • COV(b+X,c+Y) =COV(X,Y)
  • COV(X,Y) = E(X .Y)-E(X).E(Y)

Coeficiente de correlación

Para medir el grado de relación entre las variables, se usan los coeficientes de correlación.

Se define como coeficiente de correlación lineal o Índice de Pearson a:

p=r= COV(X,Y) x y = ΝΣ xy -(Σx). (Σy) ΥΝΣx2 -(ΣΧ) ΝΣΥ2 -(ΣΥ)

El Coeficiente de correlación lineal varía en el intervalo de -1 hasta 1, es decir -1≤r ≤1

Cuando se obtiene un coeficiente muy cercano a -1 o a 1se dice que hay una alta correlación lineal. Obviamente valores cercanos a 0 significan una baja correlación.

Puesto que r se calcula usando datos de muestra, es una estadística de muestra que sirve para medir la fuerza de la correlación lineal entre x e y. Si tuviéramos todos los pares de valores x e y de la población, el resultado de la fórmula sería un parámetro de población y lo representamos con p (rho).

Escala de correlación lineal

Usualmente se aplica la siguiente escala de r, para estimar una correlación lineal.

-1 -0,7 0 0,7 1 correlación alta negativa correlación baja correlación alta positiva

Cuando se analiza la posibilidad de correlación lineal entre dos variables, es decir la posibilidad de que exista relación entre las variables, inicialmente suele calcularse su coeficiente de correlación lineal Si éste es bastante bajo se afirma que no existe Correlación lineal.

Sin embargo, puede presentarse la situación de que no exista correlación lineal, pero si otro tipo de correlación.

Al procedimiento general de expresar los puntos de un diagrama de dispersión por una recta llama Regresión lineal simple.

Una recta en el plano se expresa como y = a + bx y la notación para la ecuación de regresión y = Bo + Bx donde po ordenada al origen de la ecuación de regresión y ß1 pendiente de la ecuación de regresión. Esta definición expresa una relación entre x (llamada variable independiente o variable predictora) y y (llamada variable dependiente o variable de respuesta).

Con esta recta se puede generar un sistema llamado Normal de ecuaciones obteniendose las siguientes expresiones llamado método de mínimos cuadrados.

Bo = Zy _x2 - >x _xy N_x2-(>x)2 NExy -ΣΧΣΥ B1 = Ν Σx2 -(ΣΧ)

¿Non has encontrado lo que buscabas?

Explora otros temas en la Algor library o crea directamente tus materiales con la IA.