¿Cuál es la diferencia entre la regresión lineal y la regresión logística?

Cuando tenemos que predecir el valor de un resultado categórico (o discreto) utilizamos la regresión logística. Creo que utilizamos la regresión lineal para predecir también el valor de un resultado dados los valores de entrada.

Entonces, ¿cuál es la diferencia entre las dos metodologías?

Solución
  • Resultado de la regresión lineal en forma de probabilidades

    Es tentador utilizar la salida de la regresión lineal como probabilidades, pero es un error porque la salida puede ser negativa y mayor que 1, mientras que la probabilidad no puede. Como la regresión podría en realidad producir probabilidades que podrían ser menores que 0, o incluso mayores que 1, se introdujo la regresión logística.

Fuente: http://gerardnico.com/wiki/data_mining/simple_logistic_regression

[]

  • Resultado

    En la regresión lineal, el resultado (variable dependiente) es continuo. Puede tener cualquiera de un número infinito de valores posibles.

En la regresión logística, el resultado (variable dependiente) sólo tiene un número limitado de valores posibles.

  • La variable dependiente

La regresión logística se utiliza cuando la variable de respuesta es de naturaleza categórica. Por ejemplo, sí/no, verdadero/falso, rojo/verde/azul, 1º/2º/3º/4º, etc.

La regresión lineal se utiliza cuando la variable de respuesta es continua. Por ejemplo, peso, altura, número de horas, etc.

  • Ecuación

    La regresión lineal da una ecuación que es de la forma Y = mX + C, es decir, una ecuación de grado 1.

    Sin embargo, la regresión logística da una ecuación que es de la forma Y = eX + e-X

  • Interpretación de los coeficientes

    En la regresión lineal, la interpretación de los coeficientes de las variables independientes es bastante sencilla (es decir, manteniendo todas las demás variables constantes, con un aumento unitario de esta variable, se espera que la variable dependiente aumente/disminuya en xxx).

    Sin embargo, en la regresión logística, depende de la familia (binomial, Poisson, etc.) y del enlace (log, logit, log inverso, etc.) que se utilice, la interpretación es diferente.

  • Técnica de minimización de errores**

    La regresión lineal utiliza el método de los mínimos cuadrados para minimizar los errores y llegar al mejor ajuste posible, mientras que la regresión logística utiliza el método de máxima verosimilitud para llegar a la solución.

    La regresión lineal suele resolverse minimizando el error de mínimos cuadrados del modelo a los datos, por lo que los errores grandes se penalizan cuadráticamente.

    La regresión logística es justo lo contrario. El uso de la función de pérdida logística hace que los errores grandes se penalicen hasta una constante asintótica.

Considere la regresión lineal en resultados categóricos {0, 1} para ver por qué esto es un problema. Si su modelo predice que el resultado es 38, cuando la verdad es 1, usted no ha perdido nada. La regresión lineal trataría de reducir ese 38, la logística no lo haría (tanto)2.

Comentarios (4)

En la regresión lineal, el resultado (variable dependiente) es continuo. Puede tener cualquiera de un número infinito de valores posibles. En la regresión logística, el resultado (variable dependiente) sólo tiene un número limitado de valores posibles.

Por ejemplo, si X contiene la superficie en pies cuadrados de las casas, e Y contiene el precio de venta correspondiente de esas casas, se podría utilizar la regresión lineal para predecir el precio de venta en función del tamaño de la casa. Aunque el posible precio de venta no sea realmente cualquiera, hay tantos valores posibles que se elegiría un modelo de regresión lineal.

Si, en cambio, se quisiera predecir, en función del tamaño, si una casa se vendería por más de 200.000 dólares, se utilizaría la regresión logística. Los resultados posibles son: Sí, la casa se venderá por más de 200.000 dólares, o No, la casa no se venderá.

Comentarios (3)

En pocas palabras, la regresión lineal es un algoritmo de regresión, que da salida a un posible valor continuo e infinito; la regresión logística se considera un algoritmo clasificador binario, que da salida a la 'probabilidad' de que la entrada pertenezca a una etiqueta (0 o 1).

Comentarios (1)