Documento de Universidad San Sebastian sobre Regresión lineal. El Pdf aborda la regresión y correlación, diagramas de dispersión, distribuciones marginales y condicionadas, con un ejemplo práctico. Es un material de Matemáticas para Universidad.
Ver más16 páginas


Visualiza gratis el PDF completo
Regístrate para acceder al documento completo y transformarlo con la IA.
El análisis de regresión que trata de establecer la forma de la relación entre variables, es decir se trata de encontrar una relación funcional, que para el caso de dos variables será de la forma y =f(X), de manera que se pueda calcular el valor de una variable de acuerdo con el valor que tome la otra variable.
El análisis de correlación que trata de establecer el grado de relación entre dos variables, es decir se trata de medir que tan relacionadas están las variables.
Todo punto en el plano se expresa como (x,y) en forma general un punto conocido se designa por (x),y;). Al conjunto de puntos en el plano se le llama Nube de puntos.
176 174 172 172 17 1 188 145 108
En el análisis de regresión se procura conocer una ecuación o función que exprese la relación entre dos variables, sin embargo, debido a que existirán diversidad de ecuaciones posibles, debe buscarse aquella que mejor la representela relación.
Cuando los puntos de un diagrama de dispersión se tratan de expresarlos por una recta, se llama regresión lineal simple. (Regresión lineal).
De acuerdo con el diagrama de dispersión, donde se ubicaron todos los puntos conocidos, se aprecia que es posible insertar una recta que está razonablemente cercana a todos los puntos.
15 10 -20 -10 10 20 30 40 50 60
La ecuación debe ser de la forma y = a + bx
Si las variables son tres o más y se trata de expresarlas por una ecuación lineal de varias variables, se llama Regresión lineal Múltiple.
En el caso de tres variables, de acuerdo con el diagrama de dispersión en el espacio, se trata de hallar la ecuación del plano, como se muestra en la imagen. La ecuación por obtenerse en este caso tiene la forma y = a + bx1 + CX2
Predición ventas . TV y Radio 25 20 15 20 10 30 20 50 100 158 200 2 900 0
Cuando a los puntos de un diagrama de dispersión se trata de expresarlos por una ecuación de una curva cualquiera, se efectúa el análisis de regresión no lineal.
ira:
En la práctica surge la necesidad de analizar el conjunto de dos o más variables.
Por ejemplo, puede ser necesario estudiar la altura y el peso de un grupo de personas, donde x es la variable relativa al peso, Y es la variable relativa a la estatura.
Para analizar en forma conjunta a las variables X, Y se considera el par (x, y) como una sola variable, llamada Variable estadística bidimensional, se llama también variable bivariante.
De forma equivalente la terna ordenada (x, y, z) se llamará variable estadística tridimensional y así sucesivamente.
La variable estadística bidimensional, (x, y) se clasifica de acuerdo con el carácter de cada una de las variables x, Y que pueden ser de carácter cualitativo, cuantitativo discreto y cuantitativo continuo.
Si (x, y) es una variable bidimensional donde los distintos valores que toman X, Y son:
X:X1,X2,X3 ...... X k Y : Y1, Y2,Y 3 ........... Y.K
Y1 Y2 ;.... .... Y total Datos X 1 f1 f12 .. ... f 1 l X2 f21 f22 f 2 l X3 . . ... f1. f2. f3. ,. ... fi .. f. k ÍK1 f f k • total f. f.2 f. ... f. n
Donde:
La tabla nos muestra el total de créditos de consumo solicitado por un grupo de clientes de cierta financiera, agrupadas por monto y tasa de interés aplicada respectivamente, si se definen las variables estadísticas:
X: "Monto de los préstamos solicitados por los clientes de la financiera en pesos".
Y: "Tasa de interés mensual que cobra la financiera".
Y X 2% 3% 4% 5% 500.000 ≤ X < 600.000 8 0 8 0 16 600.000 ≤ X < 700.000 0 16 0 8 24 700.000 ≤ X ≤ 800.000 16 0 24 0 40 total 24 16 32 8 80
De la tabla podemos observar que:
La tabla que muestra a la variable X con sus frecuencias marginales, se llama distribución marginal de la variable X. Similarmente la tabla que representa a la variable Y con sus frecuencias marginales, se llama distribución marginal de la variable Y.
Datos X f. X1 f1. X. 3 f3. XK f k • total k n = >f. i=1
Datos Y f, Y, f.1 Y, f.2 Y3 f. f. YK f. total l n = >f.j j=1
La distribución de frecuencia absoluta condicionada de la variable X, cuando la otra variable toma el valor Y , se expresa por f X Y = Y; 1 está dada por la columna j, de la tabla de distribución bidimensional de doble entrada.
La distribución de frecuencia absoluta condicionada de la variable Y, cuando la otra variable toma el valor X, , se expresa por f Y X = X está dada por la fila i , de la tabla de distribución bidimensional de doble entrada.
X2 f2. f.
Una medida del grado de asociación entre las variables X, Y es la covarianza poblacional.
La covarianza es el valor que refleja en que cuantía dos variables aleatorias varían de forma conjunta respecto a sus medias.
Nos permite saber cómo se comporta una variable en función de lo que hace otra variable. Es decir, cuando X sube ¿Cómo se comporta Y? Así, la covarianza puede tomar los siguientes valores:
K 1 1 l ΣΣ;(x,-x)Y,-γ) COV(XY) = K ΣΣΧ;Υ; n n COV(XY) = 1 1 - X . Y = xy - xy
A la hora de trabajar con ella las propiedades que tiene y que se deducen de la definición misma de covarianza:
Para medir el grado de relación entre las variables, se usan los coeficientes de correlación.
Se define como coeficiente de correlación lineal o Índice de Pearson a:
p=r= COV(X,Y) x y = ΝΣ xy -(Σx). (Σy) ΥΝΣx2 -(ΣΧ) ΝΣΥ2 -(ΣΥ)
El Coeficiente de correlación lineal varía en el intervalo de -1 hasta 1, es decir -1≤r ≤1
Cuando se obtiene un coeficiente muy cercano a -1 o a 1se dice que hay una alta correlación lineal. Obviamente valores cercanos a 0 significan una baja correlación.
Puesto que r se calcula usando datos de muestra, es una estadística de muestra que sirve para medir la fuerza de la correlación lineal entre x e y. Si tuviéramos todos los pares de valores x e y de la población, el resultado de la fórmula sería un parámetro de población y lo representamos con p (rho).
Usualmente se aplica la siguiente escala de r, para estimar una correlación lineal.
-1 -0,7 0 0,7 1 correlación alta negativa correlación baja correlación alta positiva
Cuando se analiza la posibilidad de correlación lineal entre dos variables, es decir la posibilidad de que exista relación entre las variables, inicialmente suele calcularse su coeficiente de correlación lineal Si éste es bastante bajo se afirma que no existe Correlación lineal.
Sin embargo, puede presentarse la situación de que no exista correlación lineal, pero si otro tipo de correlación.
Al procedimiento general de expresar los puntos de un diagrama de dispersión por una recta llama Regresión lineal simple.
Una recta en el plano se expresa como y = a + bx y la notación para la ecuación de regresión y = Bo + Bx donde po ordenada al origen de la ecuación de regresión y ß1 pendiente de la ecuación de regresión. Esta definición expresa una relación entre x (llamada variable independiente o variable predictora) y y (llamada variable dependiente o variable de respuesta).
Con esta recta se puede generar un sistema llamado Normal de ecuaciones obteniendose las siguientes expresiones llamado método de mínimos cuadrados.
Bo = Zy _x2 - >x _xy N_x2-(>x)2 NExy -ΣΧΣΥ B1 = Ν Σx2 -(ΣΧ)