Apa perbedaan antara regresi linier dan regresi logistik?

Ketika kita memiliki untuk memprediksi nilai dari a kategoris (atau diskrit) hasil yang kita gunakan regresi logistik. Saya percaya kita gunakan regresi linier juga memprediksi nilai dari hasil diberi nilai input.

Lalu, apa perbedaan antara dua metodologi?

Larutan
  • Regresi linier output sebagai probabilitas

It's tergoda untuk menggunakan regresi linier output sebagai probabilitas tapi itu's kesalahan karena output dapat menjadi negatif, dan lebih besar dari 1 sedangkan kemungkinan tidak bisa. Sebagai regresi mungkin benar-benar menghasilkan probabilitas yang bisa kurang dari 0, atau bahkan lebih besar dari 1, regresi logistik diperkenalkan.

Sumber: http://gerardnico.com/wiki/data_mining/simple_logistic_regression

  • Hasil

Dalam regresi linier berganda, hasil (variabel dependen) adalah terus menerus. Hal ini dapat memiliki salah satu jumlah tak terbatas dari nilai-nilai yang mungkin.

Dalam regresi logistik, hasil (variabel dependen) hanya mempunyai sejumlah terbatas nilai-nilai yang mungkin.

  • Variabel terikat

Regresi logistik digunakan ketika variabel respon adalah kategoris dalam alam. Misalnya, yes/no, true/false, merah/hijau/biru, 1st/2nd/3rd/4th, dll.

Linier regresi yang digunakan ketika variabel respon adalah terus-menerus. Misalnya, berat badan, tinggi badan, jumlah jam, dll.

  • Persamaan

Regresi linier memberikan persamaan bentuk Y = mX + C, berarti persamaan dengan tingkat 1.

Namun, regresi logistik memberikan sebuah persamaan yang berbentuk Y = eX + e-X

  • Koefisien interpretasi

Pada regresi linier, koefisien interpretasi variabel-variabel independen yang cukup mudah (yaitu memegang semua variabel lain konstan, dengan unit peningkatan variabel ini, variabel dependen adalah diharapkan meningkat/menurun xxx).

Namun, dalam regresi logistik, tergantung pada keluarga (binomial, Poisson, dll.) dan link (log, logit, invers-log, dll.) anda menggunakan, interpretasi berbeda.

  • Kesalahan teknik minimisasi

Regresi linier menggunakan ordinary setidaknya squares metode untuk meminimalkan kesalahan dan tiba di tempat yang sesuai, sedangkan regresi logistik menggunakan maximum likelihood metode untuk sampai pada solusi.

Regresi linier biasanya diselesaikan dengan meminimalkan kuadrat galat dari model data, oleh karena itu kesalahan besar yang dihukum quadratically.

Regresi logistik adalah justru sebaliknya. Menggunakan logistik hilangnya fungsi menyebabkan kesalahan besar yang akan dihukum untuk sebuah asimtotik konstan.

Mempertimbangkan regresi linier pada kategoris {0, 1} hasil untuk melihat mengapa ini adalah masalah. Jika model anda memprediksi hasil 38, ketika kebenaran adalah 1,'ve kehilangan apa-apa. Regresi linier akan mencoba untuk mengurangi 38, logistik tidak't (sebanyak)2.

Komentar (4)

Dalam regresi linier berganda, hasil (variabel dependen) adalah terus menerus. Hal ini dapat memiliki salah satu jumlah tak terbatas dari nilai-nilai yang mungkin. Dalam regresi logistik, hasil (variabel dependen) hanya mempunyai sejumlah terbatas nilai-nilai yang mungkin.

Misalnya, jika X berisi luas dalam meter persegi dari rumah, dan Y berisi sesuai harga jual rumah-rumah, anda bisa menggunakan linear regresi untuk memprediksi harga jual sebagai fungsi dari ukuran rumah. Sementara kemungkinan harga jual mungkin tidak benar-benar salah, ada begitu banyak nilai yang mungkin bahwa model regresi linear yang akan dipilih.

Jika, sebaliknya, anda ingin memprediksi, berdasarkan ukuran, apakah rumah yang akan dijual lebih dari $200 RIBU, anda akan menggunakan regresi logistik. Kemungkinan output yang baik Ya, rumah yang akan dijual lebih dari $200 RIBU, atau Tidak, rumah tidak akan.

Komentar (3)

Hanya untuk menambahkan pada jawaban sebelumnya.

Regresi linier

Ini dimaksudkan untuk mengatasi masalah memprediksi/memperkirakan nilai output untuk suatu elemen X (katakanlah f(x)). Hasil prediksi cotinuous fungsi di mana nilai-nilai dapat positif atau negatif. Dalam hal ini anda biasanya memiliki input dataset dengan banyak contoh dan nilai output untuk setiap salah satu dari mereka. Tujuannya adalah untuk dapat fit model untuk data ini mengatur sehingga anda dapat memprediksi bahwa output baru yang berbeda/tidak pernah melihat unsur-unsur. Berikut adalah contoh klasik dari pas garis untuk mengatur poin, tetapi secara umum regresi linier dapat digunakan sesuai model yang lebih kompleks (menggunakan lebih tinggi polinomial derajat):

Penyelesaian masalah

Linea regresi dapat diselesaikan dalam dua cara yang berbeda:

  1. Normal persamaan (cara langsung untuk memecahkan masalah)
  2. Gradient descent (pendekatan Iteratif)

Regresi logistik

Ini dimaksudkan untuk mengatasi klasifikasi masalah di mana diberikan sebuah elemen anda harus mengklasifikasikan sama dalam N kategori. Contoh yang khas misalnya diberikan sebuah surat untuk mengklasifikasikan itu sebagai spam atau tidak, atau diberikan kendaraan untuk menemukan yang kategori ini termasuk (mobil, truk, van, dll ..). Yang's pada dasarnya output adalah finite set descrete nilai-nilai.

Penyelesaian masalah

Regresi logistik masalah bisa diselesaikan hanya dengan menggunakan Gradient descent. Perumusan secara umum sangat mirip dengan regresi linier satu-satunya perbedaan adalah penggunaan berbagai fungsi hipotesis. Dalam regresi linier hipotesis memiliki bentuk:

h(x) = theta_0 + theta_1*x_1 + theta_2*x_2 .. 

dimana theta adalah model kami berusaha untuk fit dan [1, x_1, x_2, ..] adalah vektor input. Dalam regresi logistik hipotesis fungsi yang berbeda:

g(x) = 1 / (1 + e^-x)

Fungsi ini memiliki properti, pada dasarnya peta nilai pada range [0,1] yang sesuai untuk menangani propababilities selama classificatin. Misalnya dalam kasus biner klasifikasi g(X) dapat diartikan sebagai probabilitas milik positif kelas. Dalam hal ini biasanya anda memiliki kelas yang berbeda yang dipisahkan dengan keputusan batas yang pada dasarnya kurva yang memutuskan pemisahan antara kelas yang berbeda. Berikut adalah contoh dari dataset dipisahkan dalam dua kelas.

Komentar (0)

Perbedaan mendasar :

Regresi linier pada dasarnya adalah sebuah model regresi yang berarti akan memberikan non bijaksana/output yang berkesinambungan dari sebuah fungsi. Jadi pendekatan ini memberikan nilai. Misalnya : diberikan x apa f(x)

Misalnya diberikan pelatihan set faktor-faktor yang berbeda dan harga properti setelah pelatihan kami dapat menyediakan diperlukan faktor-faktor untuk menentukan apa yang akan menjadi harga properti.

Regresi logistik pada dasarnya adalah sebuah biner algoritma klasifikasi yang berarti bahwa di sini tidak akan bijaksana dihargai keluaran untuk fungsi . Sebagai contoh : untuk x jika f(x)>ambang mengklasifikasikan menjadi 1 lagi yang mengklasifikasikan menjadi 0.

Misalnya diberikan satu set tumor otak ukuran sebagai data pelatihan kita dapat menggunakan ukuran sebagai masukan untuk menentukan apakah yang benine atau tumor ganas. Oleh karena itu di sini output adalah bijaksana baik 0 atau 1.

*berikut ini fungsi dasarnya adalah hipotesis fungsi

Komentar (0)

Mereka berdua sangat mirip dalam memecahkan solusi tersebut, tapi seperti yang orang lain telah mengatakan, satu (Regresi Logistik) adalah untuk memprediksi kategori "fit" (Y/N atau 1/0), dan lainnya (metode Regresi Linear) adalah untuk memprediksi nilai.

Jadi jika anda ingin memprediksi jika anda memiliki kanker Y/N (atau probabilitas) - menggunakan logistik. Jika anda ingin tahu berapa tahun anda akan hidup untuk - menggunakan Regresi Linier !

Komentar (0)

Sederhananya, regresi linear adalah regresi algoritma, yang outpus mungkin terus-menerus dan tak terbatas nilai; regresi logistik dianggap sebagai biner classifier algoritma, yang output 'probabilitas' input milik label (0 atau 1).

Komentar (1)
| Basis                                                           | Linear                                                                         | Logistic                                                                                                            |
|-----------------------------------------------------------------|--------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------|
| Basic                                                           | The data is modelled using a straight line.                                    | The probability of some obtained event is represented as a linear function of a combination of predictor variables. |
| Linear relationship between dependent and independent variables | Is required                                                                    | Not required                                                                                                        |
| The independent variable                                        | Could be correlated with each other. (Specially in multiple linear regression) | Should not be correlated with each other (no multicollinearity exist).                                              |
Komentar (0)

Singkatnya: Regresi linier memberikan output yang berkesinambungan. yaitu setiap nilai antara berbagai nilai-nilai. Regresi logistik memberikan output diskrit. misalnya Ya/Tidak, 0/1 jenis output.

Komentar (0)

Tidak bisa lebih setuju dengan komentar di atas. Di atas itu, ada beberapa perbedaan seperti

Pada Regresi Linier, residu diasumsikan terdistribusi secara normal. Dalam Regresi Logistik, residual harus independen, tetapi tidak terdistribusi normal.

Regresi linier mengasumsikan bahwa perubahan konstan dalam nilai dari penjelasan variabel hasil dalam perubahan konstan pada variabel respon. Asumsi ini tidak berlaku jika nilai variabel respon merupakan probabilitas (dalam Regresi Logistik)

GLM(Generalized linear model) tidak mengasumsikan hubungan linear antara variabel bebas dan terikatnya. Namun, hal ini mengasumsikan hubungan linear antara fungsi link dan variabel independen dalam model logit model.

Komentar (0)

Dalam regresi linier hasilnya terus menerus sedangkan pada regresi logistik, hasilnya hanya mempunyai sejumlah terbatas nilai-nilai yang mungkin(diskrit).

contoh: Dalam sebuah skenario,diberikan nilai x adalah ukuran plot di kaki persegi kemudian memprediksi y yaitu tingkat plot datang di bawah regresi linier.

Jika, sebaliknya, anda ingin memprediksi, berdasarkan ukuran, apakah plot akan menjual lebih dari 300000 Rs, anda akan menggunakan regresi logistik. Kemungkinan output yang baik Ya, plot akan menjual lebih dari 300000 Rs, atau Tidak.

Komentar (0)

Sederhananya, jika dalam model regresi linear lebih lanjut kasus uji tiba yang jauh dari ambang batas(katakanlah =0.5)untuk prediksi dari y=1 dan y=0. Maka dalam hal ini hipotesis yang akan berubah dan menjadi lebih buruk.Oleh karena itu model regresi linier tidak digunakan untuk masalah klasifikasi.

Masalah lain adalah bahwa jika klasifikasi adalah y=0 dan y=1, h(x) dapat menjadi > 1 atau < 0.Jadi kami menggunakan regresi Logistik adalah 0<=h(x)<=1.

Komentar (0)

Regresi logistik digunakan dalam memprediksi kategoris output suka Ya/Tidak, Rendah/Menengah/Tinggi dll. Anda pada dasarnya memiliki 2 jenis regresi logistik Regresi Logistik Biner (Ya/Tidak, Disetujui/tidak Disetujui) atau Multi-kelas regresi Logistik (Rendah/Menengah/Tinggi, angka dari 0-9 dll)

Di sisi lain, regresi linier adalah jika anda dependent variabel (y) adalah terus menerus. y = mx + c adalah persamaan regresi linier sederhana (m = kemiringan dan c adalah y-intercept). Regresi Multilinear memiliki lebih dari 1 variabel independen (x1,x2,x3 ... dll)

Komentar (0)

Regresi berarti variabel kontinyu, Linear berarti ada hubungan linear antara y dan x. Ex= Anda mencoba untuk memprediksi gaji dari tahun pengalaman. Jadi di sini gaji adalah variabel independen(y) dan tahun pengalaman adalah variabel dependen(x). y=b0+ b1*x1 Kami mencoba untuk menemukan nilai optimum konstan b0 dan b1 yang akan memberikan kita yang terbaik pas garis untuk data pengamatan. Ini adalah persamaan garis yang terus menerus memberikan nilai dari x=0 sampai dengan yang sangat besar nilainya. Garis ini disebut model regresi Linier.

Regresi logistik adalah jenis klasifikasi. Dnt disesatkan oleh istilah regresi. Di sini kami memprediksi apakah y=0 atau 1.

Di sini kita harus terlebih dahulu mencari p(y=1) (wprobability y=1) diberikan x dari formuale di bawah ini.

Probaibility p adalah terkait dengan y dengan formuale di bawah ini

Ex=kita dapat membuat klasifikasi tumor memiliki lebih dari 50% kemungkinan memiliki kanker sebagai 1 dan tumor memiliki kurang dari 50% kemungkinan memiliki kanker sebagai 0.

Di sini titik merah akan diprediksi sebagai 0 sedangkan green point akan diperkirakan sebanyak 1.

Komentar (0)