Regresión lineal (definición, ejemplos) - ¿Cómo interpretar?

¿Qué es una regresión lineal?

La regresión lineal es básicamente una técnica de modelado estadístico que se utiliza para mostrar la relación entre una variable dependiente y una o más variables independientes. Es uno de los tipos más comunes de análisis predictivo. Este tipo de distribución se forma en una línea, por lo que se denomina regresión lineal. En este artículo, tomaremos los ejemplos de análisis de regresión lineal en Excel.

Para hacer un análisis de regresión lineal primero, necesitamos agregar complementos de Excel siguiendo los pasos.

Haga clic en Archivo - Opciones (Esto abrirá la ventana emergente de Opciones de Excel).

Haga clic en Complementos: seleccione Complementos de Excel en el menú desplegable Administrar en Excel, luego haga clic en Ir.

Esto abrirá una ventana emergente de complementos. Seleccione Analysis ToolPak y luego haga clic en Aceptar.

El complemento de análisis de datos aparecerá en Insertar pestaña.

Entendamos por los siguientes ejemplos de análisis de regresión lineal en Excel.

Ejemplos de análisis de regresión lineal

Ejemplo 1

Supongamos que tenemos ventas mensuales y gastamos en marketing durante el año pasado, y ahora necesitamos predecir las ventas futuras sobre la base de las ventas y el marketing gastados el año pasado.

Mes Publicidad Ventas
ene 40937 502729
feb 42376 507553
mar 43355 516885
abr 44126 528347
May 45060 537298
jun 49546 544066
jul 56105 553664
ago 59322 563201
sep 59877 568657
oct 60481 569384
nov 62356 573764
dic 63246 582746

Haga clic en Análisis de datos en la pestaña Datos y se abrirá la ventana emergente de análisis de datos.

Ahora seleccione Regresión de la lista y haga clic en Aceptar.

Se abrirá la ventana emergente de regresión.

Seleccione Rango de ventas $ C $ 1: $ C $ 13 en el cuadro del eje Y ya que esta es la variable dependiente y $ B $ 1: $ B $ 14 en el eje X ya que la publicidad gastada es la variable independiente.

Marque la casilla Etiquetas si ha seleccionado encabezados en los datos; de lo contrario, le dará el error.

Seleccione Rango de salida si desea obtener el valor en el rango específico en la hoja de trabajo; de lo contrario, seleccione Nueva capa de hoja de trabajo: y esto agregará una nueva hoja de trabajo y le dará el resultado.

Luego, marque la casilla Residuos y haga clic en Aceptar.

Esto agregará hojas de trabajo y le dará el siguiente resultado.

Entendamos el resultado.

Salida resumida

R múltiple: representa el coeficiente de correlación. El valor 1 muestra una relación positiva y el valor 0 no muestra ninguna relación.

R Cuadrado: R Cuadrado representa el coeficiente de determinación. Esto le indica el porcentaje de puntos que cae en la línea de regresión. 0.49 significa que el 49% de los valores se ajustan al modelo

Cuadrado R ajustado : Este es el cuadrado R ajustado, que requiere cuando tienes más de una variable X.

Error estándar: representa una estimación de la desviación estándar del error. Ésta es la precisión con la que se mide el coeficiente de regresión.

Observaciones: este es el número de observaciones que ha tomado en una muestra.

ANOVA - Df: grados de libertad

SS: suma de cuadrados.

MS: tenemos dos MS

  • Regression MS es Regression SS / Regression Df.
  • El MS residual es el error cuadrático medio (SS residual / Df residual).

F: Prueba F para la hipótesis nula.

Significación F: Valores P asociados con la significancia

Coeficiente: el coeficiente le da la estimación de mínimos cuadrados.

Estadístico T: Estadístico T para la hipótesis nula frente a la hipótesis alternativa.

Valor p : este es el valor p para la prueba de hipótesis.

95% inferior y 95% superior: estos son el límite inferior y el límite superior para el intervalo de confianza

Salida de residuos: Tenemos 12 observaciones basadas en los datos. La columna representa las ventas previstas y la columna Residuos. Los residuos son básicamente la diferencia entre las ventas previstas y las reales.

Ejemplo # 2

Seleccione la columna de marketing y ventas previstas

Vaya al grupo de gráficos debajo de la pestaña Insertar. Seleccione el icono de gráfico de dispersión

Esto insertará el diagrama de dispersión en Excel. Ver imagen a continuación

Haga clic con el botón derecho en cualquier punto y luego seleccione Agregar línea de tendencia en Excel. Esto agregará una línea de tendencia a su gráfico.

  • Puede formatear la línea de tendencia haciendo clic con el botón derecho en cualquier lugar de la línea de tendencia y luego seleccione formatear línea de tendencia.
  • Puede realizar más mejoras en el gráfico. es decir, formatear la línea de tendencia, colorear y cambiar el título, etc.
  • También puede mostrar la fórmula en el gráfico marcando la fórmula Mostrar en el gráfico y mostrar el valor R cuadrado en el gráfico.

Algunos ejemplos más de análisis de regresión lineal:

  1. La predicción de la venta de Umbrella basada en la lluvia ocurrió en el Área.
  2. Predicción de aire acondicionado vendido en función de la temperatura en verano.
  3. Durante la temporada de exámenes, las ventas de Papelería básicamente aumentaron las ventas de guías de examen.
  4. Predicción de las ventas cuando se ha realizado la publicidad basada en la serie High TRP donde se realiza un anuncio, la popularidad del embajador de la marca y las pisadas en el lugar de celebración donde se publica un anuncio.
  5. Venta de una casa según la localidad, el área y el precio.

Ejemplo # 3

Suponga que tenemos nueve estudiantes con su nivel de CI y el número que obtuvieron en la prueba.

Estudiante Resultado de la prueba Coeficiente intelectual
RAM 100 145
Shyam 97 140
Kul 93 130
Kappu 91 125
Raju 89 115
Vishal 86 110
Vivek 82 100
Vinay 78 95
Kumar 75 90

Paso 1: Primero, averigüe las variables dependientes e independientes. Aquí la puntuación de la prueba es la variable dependiente y el coeficiente intelectual es la variable independiente, ya que la puntuación de la prueba varía a medida que cambia el coeficiente intelectual.

Paso 2: Vaya a la pestaña Datos - Haga clic en Análisis de datos - Seleccione regresión - haga clic en Aceptar.

Esto abrirá la ventana de regresión.

Paso 3. Ingrese el rango de la puntuación de la prueba en el cuadro de rango de entrada Y y el coeficiente intelectual en el cuadro de rango de entrada X. (Verifique en Etiquetas si tiene encabezados en su rango de datos. Seleccione las opciones de salida, luego verifique los Residuos deseados. Haga clic en Aceptar.

Obtendrá el resultado resumido que se muestra en la siguiente imagen.

Paso 4: análisis de la regresión por resultado de resumen

Salida resumida

R múltiple: aquí, el coeficiente de correlación es 0,99, que está muy cerca de 1, lo que significa que la relación lineal es muy positiva.

R Cuadrado: El valor de R Cuadrado es 0.983, lo que significa que el 98.3% de los valores se ajustan al modelo.

Valor P: aquí, el valor P es 1.86881E-07, que es muy inferior a .1, lo que significa que el coeficiente intelectual tiene valores predictivos significativos.

Vea el cuadro a continuación.

Puede ver que casi todos los puntos están alineados o en una línea de tendencia cercana.

Ejemplo # 4

Necesitamos predecir las ventas de aire acondicionado en función de las ventas y la temperatura para un mes diferente.

Mes Temperatura Ventas
ene 25 38893
feb 28 42254
mar 31 42845
abr 33 47917
May 37 51243
jun 40 69588
jul 38 56570
ago 37 50000

Siga los pasos a continuación para obtener el resultado de la regresión.

Paso 1: Primero, averigüe las variables dependientes e independientes. Aquí Sales es la variable dependiente, y Temperature es una variable independiente ya que Sales varía a medida que Temp cambia.

Paso 2: Vaya a la pestaña Datos - Haga clic en Análisis de datos - Seleccione regresión - haga clic en Aceptar.

Esto abrirá la ventana de regresión.

Paso 3. Ingrese las ventas en el cuadro de rango de entrada Y y la temperatura en el cuadro de rango de entrada X. (Verifique en Etiquetas si tiene encabezados en su rango de datos. Seleccione las opciones de salida, luego verifique los Residuos deseados. Haga clic en Aceptar.

Esto le dará un resultado resumido como se muestra a continuación.

Paso 4: Analiza el resultado.

R múltiple: aquí, el coeficiente de correlación es 0,877, que está cerca de 1, lo que significa que la relación lineal es positiva.

R Cuadrado: el valor de R Cuadrado es 0.770, lo que significa que el 77% de los valores se ajustan al modelo

Valor P: Aquí, el valor P es 1.86881E-07, que es muy inferior a .1, lo que significa que IQ tiene valores predictivos significativos.

Ejemplo # 5

Ahora hagamos un análisis de regresión para múltiples variables independientes:

Debe predecir las ventas de un dispositivo móvil que se lanzará el próximo año. Tienes el precio y la población de los países que están afectando las ventas de móviles.

Version móvil Ventas Cantidad Población
NOS 63860 858 823
Reino Unido 61841 877 660
KZ 60876 873 631
CH 58188 726 842
HN 52728 864 573
AU 52388 680 809
Nueva Zelanda 51075 728 661
RU 49019 689 778

Siga los pasos a continuación para obtener el resultado de la regresión.

Paso 1. Primero, averigüe las variables dependientes e independientes. Aquí Ventas es variable dependiente y cantidad y población. Ambas son variables independientes ya que las ventas varían con la cantidad y la población del país.

Paso 2. Vaya a la pestaña Datos - Haga clic en Análisis de datos - Seleccione regresión - haga clic en Aceptar.

Esto abrirá la ventana de regresión.

Paso 3. Ingrese Ventas en el Cuadro de rango de entrada Y y seleccione la cantidad y población en el Cuadro de rango de entrada X. (Verifique en Etiquetas si tiene encabezados en su rango de datos. Seleccione las opciones de salida, luego verifique los Residuos deseados. Haga clic en Aceptar.

Ahora ejecute la regresión utilizando el análisis de datos en la pestaña Datos. Esto le dará el siguiente resultado.

Salida resumida

R múltiple: Aquí, el coeficiente de correlación es 0.93, que está muy cerca de 1, lo que significa que la relación lineal es muy positiva.

R Cuadrado: El valor de R Cuadrado es 0.866, lo que significa que el 86.7% de los valores se ajustan al modelo.

Significancia F: Significancia F es menor que .1, lo que significa que la ecuación de regresión tiene un valor predictivo significativo.

Valor P : si observa el valor P para Cantidad y Población, puede ver que los valores son menores que .1, lo que significa que la cantidad y la población tienen un valor predictivo significativo. La menor cantidad de valores de P significa que una variable tiene valores predictivos más significativos.

Sin embargo, tanto la cantidad como la población tienen un valor predictivo significativo, pero si observa el valor P para la cantidad y la población, puede ver que la cantidad tiene un valor P menor en Excel que la Población. Esto significa que la cantidad tiene un valor predictivo más significativo que la población.

Cosas para recordar

  • Siempre verifique las variables dependientes e independientes cada vez que seleccione cualquier dato.
  • El análisis de regresión lineal considera la relación entre la Media de las variables.
  • Este solo modela la relación entre las variables que son lineales
  • A veces, no es la mejor opción para un problema del mundo real. Por ejemplo: (Edad y salario). La mayoría de las veces, el salario aumenta a medida que aumenta la edad. Sin embargo, después de la jubilación, la edad aumenta pero los salarios disminuyen.

Articulos interesantes...