В чем разница между линейной регрессией и логистической регрессией?

Когда нам нужно предсказать значение категорического (или дискретного) результата, мы используем [логистическую регрессию](https://en.wikipedia.org/wiki / Logistic_regression). Я считаю, что мы используем линейную регрессию, чтобы также предсказать значение результата с учетом входных значений.

Тогда в чем разница между двумя методологиями?

Решение
  • Выход линейной регрессии в качестве вероятностей

    Соблазнительно использовать выход линейной регрессии в качестве вероятностей, но это ошибка, потому что выход может быть отрицательным и больше 1, тогда как вероятность не может. Как регрессия может на самом деле производить вероятности, которые могут быть меньше 0 или даже больше, чем 1, логистическая регрессия была введена.

Источник: http://gerardnico.com/wiki/data_mining/simple_logistic_regression

  • Результат

    В линейной регрессии результат (зависимая переменная) является непрерывным. Он может иметь любое из бесконечного числа возможных значений.

В логистической регрессии результат (зависимая переменная) имеет только ограниченное количество возможных значений.

  • Зависимая переменная

Логистическая регрессия используется, когда переменная отклика носит категориальный характер. Например, да / нет, правда / ложь, красный / зеленый / синий, 1-й / 2-й / 3-й / 4-й и т. Д.

Линейная регрессия используется, когда ваша переменная ответа непрерывна. Например, вес, рост, количество часов и т. Д.

  • Уравнение

    Линейная регрессия дает уравнение, которое имеет форму Y = mX + C означает уравнение со степенью 1.

    Однако логистическая регрессия дает уравнение, которое имеет форму Y = e X < / sup > + e -X < / sup >

  • Эффективная интерпретация

    В линейной регрессии интерпретация коэффициентов независимых переменных довольно проста (т.е. удерживая все остальные переменные постоянными, с увеличением единицы в этой переменной ожидается, что зависимая переменная увеличится / уменьшится на ххх).

    Однако в логистической регрессии зависит от семьи (биномиал, Пуассон, так далее.) и ссылка (журнал, логит, обратный журнал и т. д.) Вы используете, интерпретация отличается.

  • Техника минимизации ошибок

    Линейная регрессия использует метод обычных наименьших квадратов, чтобы минимизировать ошибки и достичь наилучшего соответствия, в то время как логистическая регрессия использует метод maximum irbity, чтобы прийти к решению.

    Линейная регрессия обычно решается путем минимизации ошибки наименьших квадратов модели для данных, поэтому большие ошибки наказываются квадратично.

    Логистическая регрессия как раз наоборот. Использование функции логистических потерь приводит к тому, что большие ошибки наказываются асимптотически постоянными.

Рассмотрите линейную регрессию по категориальным {0, 1} результатам, чтобы понять, почему это проблема. Если ваша модель предсказывает, что результат равен 38, а истина равна 1, вы ничего не потеряли. Линейная регрессия будет пытаться уменьшить это 38, логистика не будет (так много) 2 < / sup >.

Комментарии (4)

В линейной регрессии результат (зависимая переменная) является непрерывным. Он может иметь любое из бесконечного числа возможных значений. В логистической регрессии результат (зависимая переменная) имеет только ограниченное количество возможных значений.

Например, если X содержит площадь в квадратных футах домов, а Y содержит соответствующую цену продажи этих домов, вы можете использовать линейную регрессию для прогнозирования цены продажи в зависимости от размера дома. Хотя возможная цена продажи на самом деле не может быть любой , существует так много возможных значений, что будет выбрана модель линейной регрессии.

Если вместо этого вы хотите предсказать, исходя из размера, будет ли дом продаваться по цене более 200 тысяч долларов, вы будете использовать логистическую регрессию. Возможные результаты: да, дом продаст за более чем 200 тысяч долларов, или нет, дом - нет.

Комментарии (3)

Просто чтобы добавить на предыдущие ответы.

Линейная регрессия

Предназначен для решения проблемы прогнозирования / оценки выходного значения для данного элемента X (скажем, f (x)). Результатом прогноза является функция, в которой значения могут быть положительными или отрицательными. В этом случае у вас обычно есть входной набор данных с большим количеством примеров и выходного значения для каждого из них. Цель состоит в том, чтобы иметь возможность приспособить модель к этому набору данных, чтобы вы могли предсказать этот вывод для новых различных / никогда не видимых элементов. Ниже приведен классический пример установки линии для набора точек, но в целом линейная регрессия может использоваться для установки более сложных моделей (с использованием более высоких полиномиальных степеней):

Решение проблемы

Линейная регрессия может быть решена двумя разными способами:

  1. Нормальное уравнение (прямой способ решения проблемы)
  2. Градиентный спуск (Итеративный подход)

Логистическая регрессия

Предназначен для решения классификационных проблем, когда для данного элемента необходимо классифицировать его по N категориям. Типичными примерами являются, например, письмо, чтобы классифицировать его как спам или нет, или данная находка транспортного средства, к которой он относится (автомобиль, грузовик, фургон и т. Д.) ..). Это в основном выход - это конечный набор значений по нисходящему.

Решение проблемы

Проблемы логистической регрессии могут быть решены только с помощью градиентного спуска. Формулировка в целом очень похожа на линейную регрессию, единственное отличие заключается в использовании другой функции гипотезы. В линейной регрессии гипотеза имеет форму:

h(x) = theta_0 + theta_1*x_1 + theta_2*x_2 .. 

где тета - модель, которую мы пытаемся установить, и [1, x_1, x_2, ..] является входным вектором. В логистической регрессии функция гипотезы отличается:

g(x) = 1 / (1 + e^-x)

Эта функция имеет хорошее свойство, в основном она отображает любое значение в диапазоне [0,1], который подходит для обработки вероятностей во время классификатина. Например, в случае двоичной классификации g (X) может быть интерпретирована как вероятность принадлежать к положительному классу. В этом случае обычно у вас есть разные классы, которые разделены границей решения , которая в основном является кривой , которая решает разделение между различными классами. Ниже приведен пример набора данных, разделенного на два класса.

Комментарии (0)

Основная разница:

Линейная регрессия - это, в основном, регрессионная модель, что означает, что она даст не дискретный / непрерывный выход функции. Таким образом, этот подход дает ценность. Например: дано x, что такое f (x)

Например, учитывая набор учебных курсов различных факторов и цену имущества после обучения, мы можем предоставить необходимые факторы, чтобы определить, какой будет цена недвижимости.

Логистическая регрессия - это, в основном, алгоритм бинарной классификации, который означает, что здесь будет дискретный выходной сигнал для функции . Например: для данного x, если f (x) > порог классифицирует его как 1, иначе классифицирует его как 0.

Например, учитывая набор размеров опухоли головного мозга в качестве данных обучения, мы можем использовать размер в качестве входных данных, чтобы определить, является ли это бенин или злокачественная опухоль. Поэтому здесь выходные данные дискретны либо 0, либо 1.

  • здесь функция в основном является функцией гипотезы
Комментарии (0)

Они оба очень похожи в решении решения, но, как уже говорили другие, один (Логистическая регрессия) предназначен для прогнозирования категории «подгонка» (Да / Нет или 1/0), а другой (Линейная регрессия) предназначен для прогнозирования значение.

Поэтому, если вы хотите предсказать, есть ли у вас рак Y / N (или вероятность) - используйте логистику. Если вы хотите узнать, сколько лет вы проживете - используйте линейную регрессию !

Комментарии (0)

Проще говоря, линейная регрессия - это алгоритм регрессии, который превосходит возможное непрерывное и бесконечное значение; логистическая регрессия рассматривается как алгоритм двоичного классификатора, который выводит «вероятность» входных данных, принадлежащих метке (0 или 1).

Комментарии (1)
| Basis                                                           | Linear                                                                         | Logistic                                                                                                            |
|-----------------------------------------------------------------|--------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------|
| Basic                                                           | The data is modelled using a straight line.                                    | The probability of some obtained event is represented as a linear function of a combination of predictor variables. |
| Linear relationship between dependent and independent variables | Is required                                                                    | Not required                                                                                                        |
| The independent variable                                        | Could be correlated with each other. (Specially in multiple linear regression) | Should not be correlated with each other (no multicollinearity exist).                                              |
Комментарии (0)

Короче говоря: Линейная регрессия дает непрерывный выход. то есть. любое значение между диапазоном значений. Логистическая регрессия дает дискретный выход. то есть. Да / Нет, 0/1 вид выходов.

Комментарии (0)

Не могу согласиться с вышеуказанными комментариями. Кроме того, есть еще некоторые различия, как

В линейной регрессии предполагается, что остатки обычно распределяются. В логистической регрессии остатки должны быть независимыми, но обычно не распределяться.

Линейная регрессия предполагает, что постоянное изменение значения пояснительной переменной приводит к постоянному изменению переменной отклика. Это предположение не выполняется, если значение переменной отклика представляет вероятность (в логистической регрессии)

GLM (обобщенные линейные модели) не предполагает линейную зависимость между зависимыми и независимыми переменными. Однако это предполагает линейную связь между функцией связи и независимыми переменными в логит-модели.

Комментарии (0)

В линейной регрессии результат является непрерывным, тогда как в логистической регрессии результат имеет только ограниченное количество возможных значений (дискретных).

пример: В сценарии заданное значение x - это размер графика в квадратных футах, тогда прогнозирование y, т.е. скорости графика подпадает под линейную регрессию.

Если вместо этого вы хотите предсказать, исходя из размера, будет ли участок продаваться более чем за 300000 рупий, вы будете использовать логистическую регрессию. Возможные результаты: Да, участок будет продаваться более чем за 300000 рупий, или Нет.

Комментарии (0)

Проще говоря, если в модели линейной регрессии появляется больше тестовых случаев, которые находятся далеко от порога (скажем, = 0,5) для прогноза y = 1 и y = 0. Тогда в этом случае гипотеза изменится и станет хуже. Поэтому модель линейной регрессии не используется для задачи классификации.

Другая проблема заключается в том, что если классификация y = 0 и y = 1, h (x) может быть > 1 или < 0. Итак, мы используем логистическую регрессию: 0 < = h (x) < = 1.

Комментарии (0)

Логистическая регрессия используется в прогнозировании категориальных выходов, таких как Да / Нет, Низкий / Средний / Высокий и т. Д. У вас есть в основном 2 типа логистической регрессии. Бинарная логистическая регрессия (да / нет, утвержден / одобрен) или мультиклассная логистическая регрессия (низкий / средний / высокий, цифры от 0 до 9 и т. Д.)

С другой стороны, линейная регрессия - это если ваша зависимая переменная (y) непрерывна. y = mx + c - это простое уравнение линейной регрессии (m = наклон и c - y-перехват). Мультилинейная регрессия имеет более 1 независимой переменной (x1, x2, x3 ... так далее)

Комментарии (0)

Регрессия означает непрерывную переменную, линейная означает, что существует линейное отношение между y и x. Ex = Вы пытаетесь предсказать зарплату из многолетнего опыта. Таким образом, здесь зарплата является независимой переменной (y), а год опыта зависит от переменной (x). y = b0 + b1 * x1 Мы пытаемся найти оптимальное значение постоянных b0 и b1, которое даст нам лучшую подходящую линию для ваших данных наблюдения. Это уравнение линии, которое дает непрерывное значение от x = 0 до очень большого значения. Эта линия называется моделью линейной регрессии.

Логистическая регрессия - это тип методики классификации. Не вводите в заблуждение термином регрессия. Здесь мы прогнозируем, будет ли y = 0 или 1.

Здесь нам сначала нужно найти p (y = 1) (вероятность y = 1), приведенную ниже x из formuale.

Probaibility p относится к y ниже формы

Например, мы можем сделать классификацию опухоли, имеющей более 50% вероятности возникновения рака как 1, и опухоли, имеющей менее 50% вероятности возникновения рака как 0.

Здесь красная точка будет предсказана как 0, тогда как зеленая точка будет предсказана как 1.

Комментарии (0)