Regresión (significado, tipos) - ¿Qué es el análisis de regresión?

Tabla de contenido

¿Qué es la regresión?

El análisis de regresión es una medida basada en estadísticas utilizada en finanzas, inversiones, etc., que tiene como objetivo establecer una relación entre una variable dependiente y otra serie de variables independientes, y el enfoque principal es determinar la fuerza de la relación anterior.

Explicaciones

  • Para explicar el análisis de regresión en términos sencillos, supongamos que un jefe de ventas de una empresa se esfuerza por pronosticar las ventas del mes siguiente. Hay numerosos factores involucrados que están impulsando las ventas del producto, desde el clima hasta la nueva estrategia del competidor, el festival y el cambio en el estilo de vida de los consumidores.
  • Este es un método para alinear los diversos factores que afectan la venta, que son los que tienen el mayor impacto. Puede ayudar a responder muchas preguntas, como cuáles son los factores más importantes, qué factores son menos importantes, cuál es la relación entre estos factores y, lo más importante, cuál es la seguridad de estos factores.
  • Estos factores se denominan variables. El factor principal que estamos tratando de pronosticar se llama variable dependiente, y los otros factores que tienen un impacto en la variable dependiente se llaman variables independientes.

Fórmula

El análisis de regresión lineal simple en Excel se puede expresar con la siguiente fórmula y mide la relación entre una variable dependiente y una variable independiente.

Y = a + bX + ϵ

Aquí:

  • Y - Variable dependiente
  • X - Variable independiente (explicativa)
  • a - Intercepción
  • b - Pendiente
  • ϵ - Residual (error)

¿Cómo interpretar el análisis de regresión?

Esto se puede interpretar asumiendo un escenario simple. Aquí tomamos la relación entre los precios de la colección de antigüedades en subasta y la duración de su antigüedad. Cuanto más envejece una antigüedad, mayor es el precio que tiene. Suponiendo que hemos establecido datos para los últimos 50 artículos que se han subastado, podemos predecir cuáles serán los precios de subasta futuros en función de la antigüedad del artículo. Con estos datos, podemos construir una ecuación de regresión.

La fórmula de regresión que puede establecer una relación entre edad y precio es la siguiente:

y = β0 + β1 x + error
  • Aquí el factor dependiente es Y. Y representa el precio de cada artículo a subastar, mientras que el factor independiente es X, que determina la edad.
  • Los parámetros β0 y β1 son parámetros que no se conocen y serán estimados por la ecuación.
  • β0 es una constante que se utiliza para definir la línea de tendencia lineal que intercepta el eje Y.
  • β1 es una constante que demuestra la magnitud del cambio en el valor de la variable dependiente como función relacionada del cambio implícito en las variables independientes.
  • Básicamente, esto se llama pendiente de la ecuación. Cuando la pendiente es un trazador de líneas, significa que hay una relación proporcional entre la edad y el precio, y donde la pendiente es inversa, significa que la relación es indirectamente proporcional.
  • El error se puede definir como el ruido o la variación en la variable objetivo y es de naturaleza aleatoria.

Ejemplos de análisis de regresión de la vida real

Supongamos que necesitamos establecer una relación entre las ventas que se han realizado y la cantidad gastada en publicidad relacionada con un producto.

En general, podemos observar una relación positiva entre la cantidad de ventas y la cantidad gastada en publicidad. Aliando la ecuación de regresión lineal simple, tenemos:

Y = a + bX

Supongamos que obtenemos el valor como

Y = 500 + 30X

Interpretación del resultado:

La pendiente predicha de 30 nos ayuda a sacar la conclusión de que las ventas promedio aumentan $ 30 por año a medida que aumenta el gasto en publicidad.

Tipos de análisis de regresión

# 1 - Lineal

Esto se puede expresar con la siguiente fórmula y mide la relación entre una variable dependiente y una variable independiente.

# 2 - Polinomio

En este método, el análisis se utiliza para medir la relación entre factores dependientes únicos y múltiples variables independientes.

# 3 - Logística

Aquí el factor o variable dependiente es de naturaleza binaria. Las variables independientes pueden ser continuas o binarias. En la regresión logística multinomial, podemos permitirnos tener más de dos categorías al elegir nuestra variable independiente.

# 4 - Cuantil

Este es un concepto aditivo de regresión lineal y se usa principalmente cuando hay valores atípicos y sesgos en los datos.

# 5 - Red elástica

Esto es útil cuando se manejan variables independientes muy correlacionadas.

# 6 - Regresión de componentes principales (PCR)

Esta es una técnica que es aplicable cuando hay demasiadas variables independientes o existe multicolinealidad en los datos.

# 7 - Mínimos cuadrados parciales (PLS)

Es un método opuesto al componente principal donde tenemos variables independientes altamente correlacionadas. También es aplicable cuando hay muchas variables independientes.

# 8 - Vector de soporte

Esto puede proporcionar una solución a modelos lineales y no lineales. Hace uso de funciones de kernel no lineales para encontrar la solución óptima para modelos no lineales.

# 9 - Ordinal

Es aplicable a la predicción de valores clasificados. Básicamente, es adecuado cuando la variable dependiente es de naturaleza ordinal.

# 10 - Poisson

Esto es aplicable cuando la variable dependiente tiene datos de recuento.

# 11 - Binomio negativo

También es aplicable para administrar datos de recuento solo que la regresión binomial negativa no asume una distribución de recuento que tenga una varianza igual a su media, mientras que la regresión de Poisson asume la varianza igual a su media.

# 12 - Quasi Poisson

Es un sustituto de la regresión binomial negativa. También es aplicable a datos de recuento dispersos. La varianza de un modelo cuasi-Poisson es una función lineal de la media, mientras que la varianza de un modelo binomial negativo es una función cuadrática de la media.

# 13 - Cox

Se utiliza más para analizar datos de tiempo transcurrido hasta el evento.

Diferencia entre regresión y correlación

  • La regresión establece la relación entre una varianza independiente y una variable dependiente donde ambas variables son diferentes, mientras que la correlación determina la asociación o dependencia de dos variables donde no hay diferencia entre ambas variables.
  • El principal objetivo de la regresión es crear una línea de mejor ajuste y la estimación de una variable se realiza sobre la base de otras, mientras que en la correlación se demuestra la relación lineal entre dos variables.
  • En este, estimamos la magnitud de un cierto cambio en la variable reconocida (X) sobre la variable estimada (Y), mientras que, en correlación, el coeficiente se usa para medir en qué medida las dos variables se mueven juntas.
  • Es un proceso de estimación de la magnitud de las variables independientes aleatorias en base a la magnitud de una variable dependiente estática, mientras que la correlación nos ayuda a decidir un valor particular para expresar la interdependencia entre ambas variables.

Conclusión

  • El análisis de regresión utiliza principalmente datos para establecer una relación entre dos o más variables. Aquí se asume que las relaciones existentes en el pasado también se reflejarán en el presente o en el futuro. Pocos consideran esto como un lapso de tiempo entre el pasado y el presente / futuro.
  • Sin embargo, es una técnica de predicción y estimación muy utilizada. Aunque se trata de matemáticas, que pueden resultar difíciles para muchos usuarios, la técnica es comparativamente fácil de usar, especialmente cuando se dispone de un modelo.

Articulos interesantes...