Perbedaan antara model logit dan probit model

Question

Lebih

Sumber Tidak AMP-versi Sunting

Perbedaan antara model logit dan probit model

Apa perbedaan antara Logit dan model Probit?

I'm lebih tertarik di sini dalam mengetahui kapan harus menggunakan regresi logistik, dan kapan harus menggunakan Probit.

Jika ada literatur yang mendefinisikan menggunakan R, yang akan membantu juga.

learning_stats

Pertanyaan edit 24 April 2015 в 8:46

Pembelajaran Mesin & Analisis Data

r generalized-linear-model logistic link-function probit

3 Januari 2012 в 7:20

1165 tayangan

Mengomentari pertanyaan (7)

gung - Reinstate Monica

Sumber Tidak AMP-versi Sunting

Standar linear model (misalnya, regresi sederhana model) dapat dianggap sebagai memiliki dua 'bagian'. Ini disebut komponen struktural dan komponen random. Misalnya: $$ Y=\beta_0+\beta_1X+\varepsilon \ \text{tempat } \varepsilon\sim\mathcal{N}(0,\sigma^2) $$ Dua istilah pertama (yaitu, $\beta_0+\beta_1X$) merupakan komponen struktural, dan $\varepsilon$ (yang menunjukkan berdistribusi normal error term) adalah komponen random. Ketika respon variabel yang tidak terdistribusi normal (misalnya, jika variabel respon biner) pendekatan ini mungkin tidak akan berlaku lagi. The [generalized linear model][1] (GLiM) dikembangkan untuk mengatasi kasus tersebut, dan model logit dan probit adalah kasus khusus dari GLiMs yang sesuai untuk variabel biner (atau multi-kategori variabel respon dengan beberapa adaptasi untuk proses). Sebuah Senyum memiliki tiga bagian, a komponen struktural, a link fungsi, dan respon distribusi. Misalnya: $$ g(\mu)=\beta_0+\beta_1X $$ Di sini $\beta_0+\beta_1X$ lagi komponen struktural, $g()$ adalah fungsi link, dan $\mu$ adalah rata-rata bersyarat respon distribusi pada suatu titik tertentu dalam kovariat ruang. Cara kita berpikir tentang komponen struktural di sini doesn't benar-benar berbeda dari cara kita berpikir tentang hal itu dengan standar model linear; pada kenyataannya, bahwa's salah satu keuntungan besar dari GLiMs. Karena selama bertahun-distro varians adalah fungsi yang berarti, memiliki sesuai bersyarat berarti (dan mengingat bahwa anda ditetapkan respon distribusi), anda secara otomatis menyumbang analog acak komponen dalam model linear (N. B.: ini dapat menjadi lebih rumit dalam prakteknya). Fungsi link adalah kunci untuk GLiMs: karena distribusi dari variabel respon adalah non-normal,'s apa yang memungkinkan kita menghubungkan komponen struktural untuk respon-itu 'link' mereka (maka nama). It's juga kunci untuk pertanyaan anda, karena model logit dan probit adalah link (seperti @vinux dijelaskan), dan pemahaman fungsi link yang akan memungkinkan kita untuk cerdas ketika memilih untuk menggunakan yang mana. Meskipun ada banyak link fungsi yang dapat diterima, sering ada satu yang khusus. Tanpa ingin terlalu jauh ke dalam gulma (ini bisa sangat teknis) diprediksi berarti, $\mu$, belum tentu akan matematis yang sama sebagai respon distribusi's kanonik lokasi parameter; fungsi link yang menyamakan mereka adalah link kanonik fungsi. Keuntungan dari ini "adalah bahwa minimal cukup statistik untuk $\beta$ ada" ([jerman Rodriguez][2]). Link kanonik untuk biner data respon (lebih khusus, distribusi binomial) adalah model logit. Namun, ada banyak fungsi yang dapat memetakan komponen struktural ke interval $(0,1)$, dan dengan demikian dapat diterima; probit juga populer, tetapi ada pilihan lain yang kadang-kadang digunakan (seperti komplementer log log, $\ln(-\ln(1-\mu))$, sering disebut 'cloglog'). Dengan demikian, ada banyak kemungkinan link fungsi dan pilihan link function dapat menjadi sangat penting. Pilihan harus dibuat berdasarkan beberapa kombinasi dari:

Pengetahuan tentang respon distribusi,
Pertimbangan teoritis, dan
Empiris cocok untuk data. Setelah membahas sedikit konseptual latar belakang yang diperlukan untuk memahami ide-ide yang lebih jelas (maafkan saya), saya akan menjelaskan bagaimana pertimbangan-pertimbangan ini dapat digunakan untuk memandu pilihan anda dari link. (Biarkan aku perhatikan bahwa saya pikir @David's [komentar][3] secara akurat menangkap mengapa link yang berbeda yang dipilih dalam praktek.) Untuk mulai dengan, jika anda variabel respon adalah hasil dari Bernoulli trial (yaitu, $0$ atau $1$), anda respon distribusi binomial, dan apa yang anda benar-benar pemodelan probabilitas observasi menjadi $1$ (yaitu, $\pi(Y=1)$). Akibatnya, setiap fungsi yang memetakan bilangan real baris, $(-\infty,+\infty)$, untuk interval $(0,1)$ akan bekerja. Dari sudut pandang anda substantif teori, jika anda berpikir anda sebagai kovariat langsung terhubung dengan probabilitas keberhasilan, maka anda biasanya akan memilih regresi logistik karena itu adalah link kanonik. Namun, perhatikan contoh berikut: Anda diminta untuk model high_Blood_Pressure sebagai fungsi dari beberapa kovariat. Tekanan darah itu sendiri biasanya didistribusikan dalam populasi (I don't benar-benar tahu itu, tapi tampaknya masuk akal prima facie), meskipun demikian, dokter pendikotomian ini selama penelitian (yaitu, mereka hanya mencatat 'tinggi-BP' atau 'normal'). Dalam hal ini, probit akan lebih baik a-priori untuk alasan teoritis. Ini adalah apa yang @Elvis dimaksud dengan "biner hasilnya tergantung pada yang tersembunyi Gaussian variabel". Pertimbangan lain adalah bahwa kedua model logit dan probit adalah simetris, jika anda percaya bahwa probabilitas keberhasilan naik perlahan-lahan dari nol, tapi kemudian berangsur-angsur berkurang lebih cepat karena mendekati satu, cloglog disebut untuk, dll. Terakhir, perhatikan bahwa empiris fit model terhadap data ini tidak mungkin untuk menjadi bantuan dalam memilih sebuah link, kecuali bentuk link fungsi tersebut berbeda secara substansial (yang, model logit dan probit tidak). Misalnya, pertimbangkan hal berikut simulasi:


set.seed(1)
probLower = vector(length=1000)

for(i in 1:1000){      
    x = rnorm(1000)
    y = rbinom(n=1000, size=1, prob=pnorm(x))

    logitModel  = glm(y~x, family=binomial(link="logit"))
    probitModel = glm(y~x, family=binomial(link="probit"))

    probLower[i] = deviance(probitModel)

Community

Jawaban edit 13 April 2017 в 12:44

446

0

Komentar (5)

Elvis

Sumber Tidak AMP-versi Sunting

Selain vinux' menjawab, yang sudah mengatakan yang paling penting:

koefisien $\beta$ dalam regresi logit mempunyai interpretasi dalam hal odds ratio;
the probistic regresi adalah model ketika anda berpikir bahwa anda biner hasilnya tergantung tersembunyi gaussian variabel $Z = X' \beta + \epsilon\ $ [eq. 1] dengan $\epsilon \sim \mathcal N(0,1)$ di deterministik dengan cara: $Y = 1$ persis ketika $Z > 0$.
Lebih umum, dan lebih alami, probistic regresi adalah lebih alami model jika anda berpikir bahwa hasilnya adalah $1$ persis ketika beberapa $Z_0 = X' \beta_0 + \epsilon_0$ melebihi ambang batas $c$, dengan $\epsilon \sim \mathcal N(0,\sigma^2)$. Sangat mudah untuk melihat bahwa ini dapat dikurangi dengan kasus tersebut: hanya rescale $Z_0$ sebagai $Z = {1\alih \sigma}(Z_0-c)$; sangat mudah untuk memeriksa bahwa persamaan [pers. 1] masih memegang (rescale koefisien dan menerjemahkan intercept). Model ini telah dipertahankan, misalnya, dalam konteks medis, di mana $Z_0$ akan yang teramati variabel kontinyu, dan $Y$ misalnya penyakit yang muncul ketika $Z_0$ melebihi beberapa "patologis ambang".

Kedua model logit dan probit model model. "Semua model yang salah, beberapa yang berguna", seperti Kotak sekali mengatakan! Kedua model ini akan memungkinkan anda untuk mendeteksi adanya efek dari $X$ hasil $Y$; kecuali dalam beberapa kasus yang sangat khusus, tidak satupun dari mereka akan menjadi "benar", dan interpretasi harus dilakukan dengan kehati-hatian.

47

0

Komentar (2)

Macro

Sumber Tidak AMP-versi Sunting

Mengenai pernyataan anda

I'm lebih tertarik di sini dalam mengetahui kapan harus menggunakan regresi logistik, dan kapan harus menggunakan probit

Sudah ada banyak jawaban berikut ini yang memunculkan hal-hal yang perlu dipertimbangkan ketika memilih antara dua tapi ada salah satu pertimbangan penting yang belum't dinyatakan belum: Bila anda memiliki minat yang tinggi untuk melihat dalam cluster asosiasi dalam data biner menggunakan campuran efek logistik atau model probit, ada teori landasan untuk memilih model probit. Ini adalah, tentu saja, dengan asumsi bahwa tidak ada a priori alasan untuk memilih model logistik (misalnya jika anda're melakukan simulasi dan tahu itu untuk menjadi model yang benar).

Pertama, Untuk melihat mengapa ini adalah yang benar pertama perhatikan bahwa kedua model ini dapat dipandang sebagai thresholded terus-menerus model regresi. Sebagai contoh mempertimbangkan sederhana linear efek campuran model untuk observasi $i$ dalam cluster $j$:

$$ y^{\star}{ij} = \mu + \eta{j} + \varepsilon_{ij} $$

di mana $\etaj \sim N(0,\sigma^2)$ adalah cluster $j$ efek acak dan $\varepsilon{ij}$ adalah error term. Kemudian kedua logistik dan probit model regresi adalah ekuivalen dirumuskan sebagai yang dihasilkan dari model ini dan thresholding pada 0:

$$ y{ij} = \begin{kasus} 1 & \text{jika} \ \ \ y^{\star}{ij}≥0\ \ 0 &\text{jika} \ \ \ y^{\star}_{ij}<0 \end{kasus} $$

Jika $\varepsilon_{ij}$ term terdistribusi normal, anda memiliki regresi probit dan jika itu adalah logistik yang didistribusikan anda memiliki model regresi logistik. Karena skala ini tidak diidentifikasi, ini kesalahan residual yang ditetapkan sebagai standar normal dan standar logistik, masing-masing.

Pearson (1900) menunjukkan bahwa jika multivariat normal data yang dihasilkan dan thresholded kategoris, korelasi antara mendasari variabel-variabel yang secara statistik masih diidentifikasi - korelasi ini disebut korelasi polychoric dan, khusus untuk biner kasus, mereka disebut korelasi tetrachoric. Ini berarti bahwa, dalam model probit, dengan koefisien korelasi intraclass yang mendasari biasanya didistribusikan variabel:

$$ {\rm ICC} = \frac{ \hat{\sigma}^{2} }{\hat{\sigma}^{2} + 1 } $$

diidentifikasi yang berarti bahwa di probit kasus anda sepenuhnya dapat mencirikan bersama distribusi yang mendasari variabel laten.

Dalam logistik model efek acak varians dalam model logistik masih diidentifikasi, tetapi itu tidak sepenuhnya menggambarkan ketergantungan struktur (dan oleh karena itu bersama distribusi), karena itu adalah campuran antara normal dan logistik variabel acak yang tidak memiliki properti bahwa itu adalah sepenuhnya ditentukan oleh rata-rata dan matrik kovariansi. Memperhatikan hal ini aneh parametrik asumsi yang mendasari variabel laten membuat interpretasi efek acak pada model logistik kurang jelas untuk menafsirkan secara umum.

Macro

Jawaban edit 22 Juni 2012 в 4:09

32

0

Komentar (2)

gregmacfarlane

Sumber Tidak AMP-versi Sunting

Poin penting yang telah dibahas dalam bagian sebelumnya (sangat baik) jawaban ini sebenarnya estimasi langkah. Multinomial logit model memiliki PDF yang mudah untuk mengintegrasikan, yang menyebabkan tertutup-bentuk ekspresi probabilitas pilihan. Kepadatan dari distribusi normal adalah tidak begitu mudah terintegrasi, sehingga model probit biasanya memerlukan simulasi. Jadi sementara kedua model adalah abstraksi dari situasi dunia nyata, logit biasanya lebih cepat untuk digunakan pada masalah yang lebih besar (beberapa alternatif atau dataset besar).

Melihat hal ini lebih jelas, probabilitas suatu hasil tertentu yang dipilih adalah fungsi dari $x$ variabel prediktor dan $\varepsilon$ kesalahan istilah (berikut Kereta)

$$ P = \int I[\varepsilon > -\beta'x] f(\varepsilon)d\varepsilon $$ Di mana $I$ adalah suatu indikator fungsi, 1 jika dipilih dan nol sebaliknya. Mengevaluasi integral ini sangat bergantung pada asumsi dari $f(x)$. Dalam model logit model, ini adalah fungsi logistik, dan distribusi normal dalam model probit. Untuk model logit model, ini menjadi

$$ P=\int_{\varepsilon=-\beta'x}^{\infty} f(\varepsilon)d\varepsilon\ = 1 - F(-\beta'x) = 1-\dfrac{1}{\exp(\beta'x)} $$

Tidak seperti bentuk yang nyaman ada untuk model probit.

gregmacfarlane

Jawaban edit 23 Juni 2012 в 1:40

29

0

Komentar (4)

user61417

Sumber Tidak AMP-versi Sunting

Apa yang akan saya katakan dalam cara yang tidak membatalkan apa yang telah dikatakan sejauh ini. Saya hanya ingin menunjukkan bahwa model probit tidak menderita dari IIA (Kemerdekaan tidak Relevan alternatif) asumsi-asumsi, dan logit model.

Untuk menggunakan contoh dari Kereta's buku yang sangat bagus. Jika saya memiliki logit untuk memprediksi apakah saya akan naik bus biru atau mengemudi di mobil saya, menambahkan bus merah akan menarik dari kedua mobil dan bus biru secara proporsional. Tapi dengan menggunakan model probit anda dapat menghindari masalah ini. Pada dasarnya, alih-alih menggambar dari kedua secara proporsional, anda dapat menarik lebih dari blue bus karena mereka lebih dekat pengganti.

Pengorbanan yang anda buat adalah bahwa tidak ada solusi bentuk tertutup, seperti yang ditunjukkan di atas. Probit cenderung goto saya ketika saya khawatir tentang IIA masalah. Yang's bukan untuk mengatakan bahwa tidak ada't cara untuk mendapatkan sekitar IIA dalam model logit framework (GEV distribusi). Tapi aku've selalu melihat orang macam model sebagai kikuk cara sekitar masalah. Dengan kecepatan komputasi yang bisa anda dapatkan, saya akan mengatakan pergi dengan probit.

13

0

Komentar (2)

Carlo Lazzaro

Sumber Tidak AMP-versi Sunting

Salah satu yang paling terkenal perbedaan antara model logit dan probit adalah (teoritis) regresi residual distribusi: normal untuk probit, logistik untuk model logit (silakan lihat: Koop G. Pengantar Ekonometrika Chichester, Wiley: 2008: 280).

Carlo Lazzaro

Jawaban edit 1 Juli 2015 в 4:45

8

0

Komentar (1)

Tripartio

Sumber Tidak AMP-versi Sunting

Saya menawarkan jawaban praktis atas pertanyaan, yang hanya berfokus pada "kapan harus menggunakan regresi logistik, dan kapan harus menggunakan probit", tanpa masuk ke rincian statistik, melainkan berfokus pada keputusan berdasarkan statistik. Jawabannya tergantung pada dua hal utama: apakah anda memiliki disiplin preferensi, dan apakah anda hanya peduli untuk model yang lebih baik sesuai data anda? Perbedaan mendasar Kedua model logit dan probit model menyediakan model statistik yang memberikan probabilitas yang tergantung variabel respon akan menjadi 0 atau 1. Mereka sangat mirip dan sering diberikan praktis idential hasil, tetapi karena mereka menggunakan berbagai fungsi untuk menghitung probabilitas, hasil mereka kadang-kadang sedikit berbeda. Disiplin preferensi Beberapa disiplin akademis yang umumnya lebih memilih satu atau yang lain. Jika anda ingin mempublikasikan atau menampilkan hasil untuk disiplin akademik tertentu dengan preferensi tradisional, maka kita yang menentukan pilihan anda sehingga temuan anda akan lebih mudah diterima. Misalnya (dari [Metode Konsultan][1]),

Logit – juga dikenal sebagai regresi logistik – lebih populer di kesehatan ilmu-ilmu seperti epidemiologi sebagian karena koefisien dapat ditafsirkan dalam hal odds ratio. Model Probit dapat digeneralisasikan untuk akun non-konstan kesalahan varians yang lebih canggih ekonometrik pengaturan (dikenal sebagai heteroskedastic model probit) dan oleh karena itu digunakan dalam beberapa konteks oleh para ekonom dan politik para ilmuwan. Intinya adalah bahwa perbedaan-perbedaan dalam hasil yang begitu kecil bahwa kemampuan untuk penonton umum untuk memahami hasil yang lebih besar daripada perbedaan-perbedaan kecil antara dua pendekatan. Jika semua yang anda pedulikan adalah lebih cocok... Jika anda penelitian dalam disiplin yang tidak memilih satu atau yang lain, maka saya belajar dari pertanyaan ini (yang lebih baik, logit atau probit) telah menyebabkan saya menyimpulkan bahwa hal ini umumnya lebih baik untuk menggunakan probit, karena hampir selalu akan memberikan statistik yang sesuai dengan data yang sama atau lebih unggul dari model logit model. Yang paling penting terkecuali ketika logit model memberikan lebih cocok dalam hal ini adalah "ekstrim variabel independen" (yang saya jelaskan di bawah). Kesimpulan saya adalah didasarkan hampir seluruhnya (setelah mencari berbagai sumber lain) pada Hahn, E. D. & Soyer, R., 2005. Probit dan logit model: Perbedaan dalam multivariat dunia. Tersedia di: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.329.4866&rep=rep1&type=pdf. Berikut adalah ringkasan dari praktek pengambilan kesimpulan dari artikel ini mengenai apakah model logit terhadap probit model multivariat menyediakan lebih cocok untuk data (kesimpulan ini juga berlaku untuk univariat model, tetapi mereka hanya simulasi efek untuk dua variabel independen):

Di sebagian besar skenario, logit dan probit model sesuai dengan data yang sama-sama baik, dengan dua pengecualian.

Logit pasti lebih baik dalam kasus "ekstrim variabel independen". Ini adalah variabel-variabel independen mana satu sangat besar atau kecil nilainya akan sangat sering menentukan apakah variabel dependen adalah 0 atau 1, mengesampingkan efek dari kebanyakan variabel-variabel lainnya. Hahn dan Soyer secara formal mendefinisikan hal demikian (p. 4): ekstrim variabel independen tingkat melibatkan pertemuan dari tiga peristiwa. Pertama, ekstrim variabel independen tingkat terjadi pada atas atau bawah yang ekstrim dari variabel independen. Misalnya, katakan variabel bebas x adalah untuk mengambil nilai-nilai 1, 2, dan 3.2. ekstrim variabel independen tingkat akan melibatkan nilai-nilai di x = 3.2 (atau x = 1). Kedua, sebagian besar (misalnya, 60%) dari total n harus berada pada tingkat ini. Ketiga, probabilitas keberhasilan di tingkat ini harus itu sendiri menjadi ekstrim (misalnya, lebih dari 99%).

Probit lebih baik dalam kasus "random effects model" dengan sedang atau besar ukuran sampel (hal ini sama dengan model logit untuk ukuran sampel kecil). Untuk fixed effects model, probit dan logit sama-sama baik. Saya don't benar-benar memahami apa yang Hahn dan Soyer maksud dengan "random effects model" dalam artikel mereka. Meskipun banyak definisi yang ditawarkan (seperti dalam Stack Exchange pertanyaan), definisi dari istilah ini sebenarnya ambigu dan tidak konsisten. Tapi karena logit adalah tidak pernah unggul probit dalam hal ini, titik diperdebatkan dengan hanya memilih probit. Berdasarkan Hahn dan Soyer's analisis, kesimpulan saya adalah untuk selalu menggunakan model probit kecuali dalam kasus yang ekstrim variabel independen, dalam hal ini logit harus dipilih. Ekstrim variabel independen tidak semua yang umum, dan harus cukup mudah untuk mengenali. Dengan aturan ini, itu doesn't peduli apakah model tersebut adalah model random effect atau tidak. Dalam kasus di mana sebuah model adalah model random effect (di mana probit lebih disukai) tapi ada yang ekstrim variabel independen (di mana logit lebih disukai), meskipun Hahn dan Soyer didn't mengomentari hal ini, kesan saya dari artikel ini adalah bahwa efek ekstrim variabel independen yang lebih dominan, dan logit akan lebih disukai.

Tripartio

Jawaban edit 2 Mei 2016 в 2:40

8

0

Komentar (0)

Superpronker

Sumber Tidak AMP-versi Sunting

Di bawah ini, saya menjelaskan estimator yang sarang probit dan logit sebagai kasus-kasus khusus dan di mana satu dapat menguji mana yang lebih sesuai.

Kedua probit dan logit dapat bersarang dalam sebuah variabel laten model,

$$ y_i^* = x_i \beta + \varepsilon_i,\quad \varepsilon_i \sim G(\cdot), $$

mana yang diamati adalah komponen

$$ y_i = \mathbb{1}(y_i^* > 0). $$

Jika anda memilih $G$ menjadi normal cdf, anda mendapatkan probit, jika anda memilih logistik cdf, anda mendapatkan logit. Either way, kemungkinan fungsi mengambil bentuk

$$ \ell(\beta) = y_i \log G(x_i\beta) + (1-y_i) \log[1-G(x_i\beta)].$$

Namun, jika anda khawatir tentang asumsi yang telah anda buat, anda dapat menggunakan Klein & Seni (1993; Econometrica) estimator. Estimator ini memungkinkan anda untuk sepenuhnya fleksibel dalam spesifikasi cdf, $G$, dan anda kemudian bisa bahkan kemudian uji validitas normalitas atau logisticness (?).

Di Klein & Seni, kriteria fungsi alih

$$ \ell(\beta) = y_i \log \hat{G}(x_i\beta) + (1-y_i) \log[1-\hat{G}(x_i\beta)],$$

di mana $\hat{G}(\cdot)$ adalah estimasi nonparametrik dari cdf, misalnya diperkirakan menggunakan Nadar-Watson kernel regresi penaksir,

$$ \hat{G}(z) = \sum_{i=1}^N y_i \frac{ K\left( \frac{z - xi\beta}{h} \right)}{\sum{j=1}^N K\left( \frac{z - x_j\beta}{h} \right)}, $$

di mana $K$ disebut "Kernel" (biasanya, Gaussian cdf atau segitiga kernel yang dipilih), dan $h$ adalah "bandwidth". Ada plugin nilai-nilai yang ideal untuk yang terakhir tapi itu bisa menjadi jauh lebih rumit dan hal ini dapat membuat outer optimasi lebih dari $\beta$ lebih rumit jika $h$ perubahan dalam setiap langkah ($h$ saldo yang disebut bias-varians tradeoff).

Perbaikan: Ichimura telah menyarankan bahwa kernel regresi, $\hat{G}$, harus meninggalkan $i$th observasi; jika tidak, pilihan $h$ mungkin rumit oleh masalah dengan over-fitting dalam sampel (terlalu tinggi variance).

Diskusi: salah Satu kelemahan dengan Klein-Seni estimator adalah bahwa hal itu mungkin terjebak dalam local minima. Hal ini karena $G$ cdf menyesuaikan dengan diberikan $\beta$-parameter. Saya tahu dari beberapa siswa yang telah mencoba menerapkan dan memiliki masalah mencapai konvergensi dan menghindari masalah numerik. Oleh karena itu, hal ini tidak mudah estimator untuk bekerja dengan. Selain itu, inferensi pada estimasi parameter rumit dengan semi-parametrik spesifikasi untuk $G$.

5

0

Komentar (0)

Benoit Sanchez

Sumber Tidak AMP-versi Sunting

Mereka sangat mirip.

Dalam kedua model, probabilitas bahwa $Y=1$ diberikan $X$ dapat dilihat sebagai probabilitas bahwa a random tersembunyi variabel $S$ (dengan tetap tertentu distribusi) adalah di bawah ambang batas tertentu yang tergantung secara linear pada $X$ :

$$P(Y=1|X)=P(S<\beta X)$$

Atau ekuivalen :

$$P(Y=1|X)=P(\beta X-S>0)$$

Maka itu's semua masalah dari apa yang anda pilih untuk distribusi $S$ :

dalam regresi logistik, $S$ memiliki distribusi logistik.
dalam regresi probit, $S$ memiliki distribusi normal.

Varians adalah penting karena hal ini secara otomatis dikompensasi dengan mengalikan $\beta$ dengan konstan. Berarti tidak penting juga jika anda menggunakan intercept.

Hal ini dapat dilihat sebagai efek ambang batas. Beberapa terlihat hasil $E=\beta X-S$ adalah fungsi linear dari $X$ dengan beberapa kebisingan $-S$ ditambahkan seperti pada regresi linier, dan kita mendapatkan 0/1 hasil dengan mengatakan:

bila $E>0$, hasilnya adalah $Y=1$
bila $E<0$, hasilnya adalah $Y=0$

Perbedaan antara logistik dan probit terletak pada perbedaan antara logistik dan distribusi normal. Ada ain't yang banyak. Setelah disesuaikan, mereka terlihat seperti ini :

Logistik memiliki berat ekor. Hal ini dapat berdampak sedikit bagaimana peristiwa kecil (<1%) atau tinggi (>99%) kemungkinan dipasang. Praktis, perbedaan ini bahkan tidak terlihat dalam kebanyakan situasi : logit dan probit memprediksi pada dasarnya hal yang sama. Lihat http://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&konteks=artikel

"secara Filosofis", regresi logistik dapat dibenarkan oleh yang setara dengan prinsip maksimum entropi : http://www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regression-and-maximum-entropy-models/

Dalam hal perhitungan : logistik lebih sederhana karena distribusi kumulatif dari distribusi logistik telah tertutup formula tidak seperti distribusi normal. Tapi normal distribusi memiliki sifat yang baik ketika anda pergi untuk multi-dimensi, ini adalah mengapa probit sering disukai dalam kasus-kasus lanjutan.

5

0

Komentar (0)

vinux · Accepted Answer · 2012-01-03T09:06:10+00:00

Mereka terutama berbeda dalam fungsi link.

Dalam Model Logit: $\Pr(Y=1 \mid X) = [1 + e^{-X'\beta}]^{-1} $

Di Probit: $\Pr(Y=1 \mid X) = \Phi(X'\beta)$ (Kumulatif normal pdf)

Dalam cara lain, logistik memiliki sedikit menyanjung ekor. aku.e probit kurva mendekati sumbu lebih cepat dari model logit kurva.

Model Logit telah memudahkan interpretasi dari probit. Regresi logistik dapat diartikan sebagai pemodelan log odds (saya.e orang-orang yang bebas >25 batang sehari adalah 6 kali lebih mungkin untuk meninggal sebelum usia 65 tahun). Biasanya orang-orang mulai pemodelan dengan model logit. Anda bisa menggunakan kemungkinan nilai dari masing-masing model untuk menentukan model logit vs probit.