Regresión lineal (definición, ejemplos) - ¿Cómo interpretar?

Tabla de contenido

¿Qué es una regresión lineal?

¿Qué es una regresión lineal?

La regresión lineal es básicamente una técnica de modelado estadístico que se utiliza para mostrar la relación entre una variable dependiente y una o más variables independientes. Es uno de los tipos más comunes de análisis predictivo. Este tipo de distribución se forma en una línea, por lo que se denomina regresión lineal. En este artículo, tomaremos los ejemplos de análisis de regresión lineal en Excel.

Para hacer un análisis de regresión lineal primero, necesitamos agregar complementos de Excel siguiendo los pasos.

Haga clic en Archivo - Opciones (Esto abrirá la ventana emergente de Opciones de Excel).

Haga clic en Complementos: seleccione Complementos de Excel en el menú desplegable Administrar en Excel, luego haga clic en Ir.

Esto abrirá una ventana emergente de complementos. Seleccione Analysis ToolPak y luego haga clic en Aceptar.

El complemento de análisis de datos aparecerá en Insertar pestaña.

Entendamos por los siguientes ejemplos de análisis de regresión lineal en Excel.

Ejemplos de análisis de regresión lineal

Ejemplo 1

Supongamos que tenemos ventas mensuales y gastamos en marketing durante el año pasado, y ahora necesitamos predecir las ventas futuras sobre la base de las ventas y el marketing gastados el año pasado.

Mes	Publicidad	Ventas
ene	40937	502729
feb	42376	507553
mar	43355	516885
abr	44126	528347
May	45060	537298
jun	49546	544066
jul	56105	553664
ago	59322	563201
sep	59877	568657
oct	60481	569384
nov	62356	573764
dic	63246	582746

Haga clic en Análisis de datos en la pestaña Datos y se abrirá la ventana emergente de análisis de datos.

Ahora seleccione Regresión de la lista y haga clic en Aceptar.

Se abrirá la ventana emergente de regresión.

Seleccione Rango de ventas $ C $ 1: $ C $ 13 en el cuadro del eje Y ya que esta es la variable dependiente y $ B $ 1: $ B $ 14 en el eje X ya que la publicidad gastada es la variable independiente.

Marque la casilla Etiquetas si ha seleccionado encabezados en los datos; de lo contrario, le dará el error.

Seleccione Rango de salida si desea obtener el valor en el rango específico en la hoja de trabajo; de lo contrario, seleccione Nueva capa de hoja de trabajo: y esto agregará una nueva hoja de trabajo y le dará el resultado.

Luego, marque la casilla Residuos y haga clic en Aceptar.

Esto agregará hojas de trabajo y le dará el siguiente resultado.

Entendamos el resultado.

Salida resumida

R múltiple: representa el coeficiente de correlación. El valor 1 muestra una relación positiva y el valor 0 no muestra ninguna relación.

R Cuadrado: R Cuadrado representa el coeficiente de determinación. Esto le indica el porcentaje de puntos que cae en la línea de regresión. 0.49 significa que el 49% de los valores se ajustan al modelo

Cuadrado R ajustado : Este es el cuadrado R ajustado, que requiere cuando tienes más de una variable X.

Error estándar: representa una estimación de la desviación estándar del error. Ésta es la precisión con la que se mide el coeficiente de regresión.

Observaciones: este es el número de observaciones que ha tomado en una muestra.

ANOVA - Df: grados de libertad

SS: suma de cuadrados.

MS: tenemos dos MS

Regression MS es Regression SS / Regression Df.
El MS residual es el error cuadrático medio (SS residual / Df residual).

F: Prueba F para la hipótesis nula.

Significación F: Valores P asociados con la significancia

Coeficiente: el coeficiente le da la estimación de mínimos cuadrados.

Estadístico T: Estadístico T para la hipótesis nula frente a la hipótesis alternativa.

Valor p : este es el valor p para la prueba de hipótesis.

95% inferior y 95% superior: estos son el límite inferior y el límite superior para el intervalo de confianza

Salida de residuos: Tenemos 12 observaciones basadas en los datos. La ^2ª columna representa las ventas previstas y la ^3ª columna Residuos. Los residuos son básicamente la diferencia entre las ventas previstas y las reales.

Ejemplo # 2

Seleccione la columna de marketing y ventas previstas

Vaya al grupo de gráficos debajo de la pestaña Insertar. Seleccione el icono de gráfico de dispersión

Esto insertará el diagrama de dispersión en Excel. Ver imagen a continuación

Haga clic con el botón derecho en cualquier punto y luego seleccione Agregar línea de tendencia en Excel. Esto agregará una línea de tendencia a su gráfico.

Puede formatear la línea de tendencia haciendo clic con el botón derecho en cualquier lugar de la línea de tendencia y luego seleccione formatear línea de tendencia.
Puede realizar más mejoras en el gráfico. es decir, formatear la línea de tendencia, colorear y cambiar el título, etc.
También puede mostrar la fórmula en el gráfico marcando la fórmula Mostrar en el gráfico y mostrar el valor R cuadrado en el gráfico.

Algunos ejemplos más de análisis de regresión lineal:

La predicción de la venta de Umbrella basada en la lluvia ocurrió en el Área.
Predicción de aire acondicionado vendido en función de la temperatura en verano.
Durante la temporada de exámenes, las ventas de Papelería básicamente aumentaron las ventas de guías de examen.
Predicción de las ventas cuando se ha realizado la publicidad basada en la serie High TRP donde se realiza un anuncio, la popularidad del embajador de la marca y las pisadas en el lugar de celebración donde se publica un anuncio.
Venta de una casa según la localidad, el área y el precio.

Ejemplo # 3

Suponga que tenemos nueve estudiantes con su nivel de CI y el número que obtuvieron en la prueba.

Estudiante	Resultado de la prueba	Coeficiente intelectual
RAM	100	145
Shyam	97	140
Kul	93	130
Kappu	91	125
Raju	89	115
Vishal	86	110
Vivek	82	100
Vinay	78	95
Kumar	75	90

Paso 1: Primero, averigüe las variables dependientes e independientes. Aquí la puntuación de la prueba es la variable dependiente y el coeficiente intelectual es la variable independiente, ya que la puntuación de la prueba varía a medida que cambia el coeficiente intelectual.

Paso 2: Vaya a la pestaña Datos - Haga clic en Análisis de datos - Seleccione regresión - haga clic en Aceptar.

Esto abrirá la ventana de regresión.

Paso 3. Ingrese el rango de la puntuación de la prueba en el cuadro de rango de entrada Y y el coeficiente intelectual en el cuadro de rango de entrada X. (Verifique en Etiquetas si tiene encabezados en su rango de datos. Seleccione las opciones de salida, luego verifique los Residuos deseados. Haga clic en Aceptar.

Obtendrá el resultado resumido que se muestra en la siguiente imagen.

Paso 4: análisis de la regresión por resultado de resumen

Salida resumida

R múltiple: aquí, el coeficiente de correlación es 0,99, que está muy cerca de 1, lo que significa que la relación lineal es muy positiva.

R Cuadrado: El valor de R Cuadrado es 0.983, lo que significa que el 98.3% de los valores se ajustan al modelo.

Valor P: aquí, el valor P es 1.86881E-07, que es muy inferior a .1, lo que significa que el coeficiente intelectual tiene valores predictivos significativos.

Vea el cuadro a continuación.

Puede ver que casi todos los puntos están alineados o en una línea de tendencia cercana.

Ejemplo # 4

Necesitamos predecir las ventas de aire acondicionado en función de las ventas y la temperatura para un mes diferente.

Mes	Temperatura	Ventas
ene	25	38893
feb	28	42254
mar	31	42845
abr	33	47917
May	37	51243
jun	40	69588
jul	38	56570
ago	37	50000

Siga los pasos a continuación para obtener el resultado de la regresión.

Paso 1: Primero, averigüe las variables dependientes e independientes. Aquí Sales es la variable dependiente, y Temperature es una variable independiente ya que Sales varía a medida que Temp cambia.

Paso 2: Vaya a la pestaña Datos - Haga clic en Análisis de datos - Seleccione regresión - haga clic en Aceptar.

Esto abrirá la ventana de regresión.

Paso 3. Ingrese las ventas en el cuadro de rango de entrada Y y la temperatura en el cuadro de rango de entrada X. (Verifique en Etiquetas si tiene encabezados en su rango de datos. Seleccione las opciones de salida, luego verifique los Residuos deseados. Haga clic en Aceptar.

Esto le dará un resultado resumido como se muestra a continuación.

Paso 4: Analiza el resultado.

R múltiple: aquí, el coeficiente de correlación es 0,877, que está cerca de 1, lo que significa que la relación lineal es positiva.

R Cuadrado: el valor de R Cuadrado es 0.770, lo que significa que el 77% de los valores se ajustan al modelo

Valor P: Aquí, el valor P es 1.86881E-07, que es muy inferior a .1, lo que significa que IQ tiene valores predictivos significativos.

Ejemplo # 5

Ahora hagamos un análisis de regresión para múltiples variables independientes:

Debe predecir las ventas de un dispositivo móvil que se lanzará el próximo año. Tienes el precio y la población de los países que están afectando las ventas de móviles.

Version móvil	Ventas	Cantidad	Población
NOS	63860	858	823
Reino Unido	61841	877	660
KZ	60876	873	631
CH	58188	726	842
HN	52728	864	573
AU	52388	680	809
Nueva Zelanda	51075	728	661
RU	49019	689	778

Siga los pasos a continuación para obtener el resultado de la regresión.

Paso 1. Primero, averigüe las variables dependientes e independientes. Aquí Ventas es variable dependiente y cantidad y población. Ambas son variables independientes ya que las ventas varían con la cantidad y la población del país.

Paso 2. Vaya a la pestaña Datos - Haga clic en Análisis de datos - Seleccione regresión - haga clic en Aceptar.

Esto abrirá la ventana de regresión.

Paso 3. Ingrese Ventas en el Cuadro de rango de entrada Y y seleccione la cantidad y población en el Cuadro de rango de entrada X. (Verifique en Etiquetas si tiene encabezados en su rango de datos. Seleccione las opciones de salida, luego verifique los Residuos deseados. Haga clic en Aceptar.

Ahora ejecute la regresión utilizando el análisis de datos en la pestaña Datos. Esto le dará el siguiente resultado.

Salida resumida

R múltiple: Aquí, el coeficiente de correlación es 0.93, que está muy cerca de 1, lo que significa que la relación lineal es muy positiva.

R Cuadrado: El valor de R Cuadrado es 0.866, lo que significa que el 86.7% de los valores se ajustan al modelo.

Significancia F: Significancia F es menor que .1, lo que significa que la ecuación de regresión tiene un valor predictivo significativo.

Valor P : si observa el valor P para Cantidad y Población, puede ver que los valores son menores que .1, lo que significa que la cantidad y la población tienen un valor predictivo significativo. La menor cantidad de valores de P significa que una variable tiene valores predictivos más significativos.

Sin embargo, tanto la cantidad como la población tienen un valor predictivo significativo, pero si observa el valor P para la cantidad y la población, puede ver que la cantidad tiene un valor P menor en Excel que la Población. Esto significa que la cantidad tiene un valor predictivo más significativo que la población.

Cosas para recordar

Siempre verifique las variables dependientes e independientes cada vez que seleccione cualquier dato.
El análisis de regresión lineal considera la relación entre la Media de las variables.
Este solo modela la relación entre las variables que son lineales
A veces, no es la mejor opción para un problema del mundo real. Por ejemplo: (Edad y salario). La mayoría de las veces, el salario aumenta a medida que aumenta la edad. Sin embargo, después de la jubilación, la edad aumenta pero los salarios disminuyen.