로짓 모형과 프로빗 모형 간의 차이

LogitProbit model의 차이점은 무엇입니까?

여기서는 로지스틱 회귀 분석을 사용해야 하는 시기와 Probit을 사용해야 하는 시기에 더 관심이 있습니다.

그것을 R로 정의하고 있는 문헌이 있으면, 그것도 도움이 됩니다.

질문에 대한 의견 (7)

표준 선형 모델 (예를 들면, 단순 회귀 모델), # 39, & # 39 parts& 두 가지 생각할 수 있습니다. 임의 그것은꿈의 구조적인 구성 및 구성 요소 () 이라고 한다. 예를 들면 다음과 같습니다. $ $ Y = \beta_0+\beta_1X+\varepsilon\ 여기서 \varepsilon\sim\mathcal \text {} {N} (0, \sigma ^ 2) $ $ 처음 두 조건 (즉, X $ $ \beta_0+\beta_1), \varepsilon 구성하는 구조적인 구성 및 $ $ (나타내는 용어는 일반적으로 bsbab-분산 오류) 는 임의적입니까 구성 요소. 응답을 하지 일반적으로 가변입니다 때 분산 (예를 들어, 응답 변수 는 이진) 이 외곽진입 과민반을을 더 이상 유효하지 않습니다. [일반화 선형 모형] [1] (그림) 이 문제를 해결하기 위해 개발된 등 특별한 경우를 사례, 로짓 및 프로빗 모델은 제임스 적합한 이진 변수 (또는 다중 카테고리 응답 변수 이 과정에서 일부 영화화도 되었다). A 는 a 는 세 개의 부분 그림 구조적인 구성 및 링크 기능을 반응 = 분배란 . 예를 들면 다음과 같습니다. $ $ \beta_0+\beta_1x ᄀ씨 (\mu) = $ $ 여기서 X $ $ $ $ 는 ᄀ씨 () 는 다시 \beta_0+\beta_1 구조적 컴포넌트용, 기능, $ $ 는 조건부 응답 분배란 https://partner. \mu 짓궂군요 특정 시점에 공변량 있는 공간. 우리는 여기서 doesn& 운행에서어떠한 구조적인 구성 # 39, 우리가 어떻게 생각 생각해봐 함께 선형 모델, 표준 t really 다르다. 사실, s # 39 의 제임스 that& 큰 장점 중 하나입니다. 이 때문에 많은 배포판에서 기능의 분산이 평균값 i-프로파일이나 조건부 짓궂군요 (및 응답 분포를 감안하면 너회가 규정된 경우) 의 경우 자동적으로 비중은 아날로그 무순서 구성 요소를 일괄이라는 모델 (N. B.: 실제로 이 더 복잡해질 수 있다). 링크 기능을 제임스 관건이다. 이후 비 정상, 응답 가변입니다 it& 분포됩니다 # 39, & # 39 의 어떤 구조적 구성 요소를 이 응답 우릴 접속하십시오 links& # 39;; 그들 (는 전기회로의). 또한 it& # 39 의 핵심이 질문 때문에 프로빗 링크는 로짓 및 링크 기능을 선택할 수 있게 (@vinux 있다 "고), 이해하고 사용할 때 지능적으로 어느쪽이야. 비록 많은 링크 기능을 사용할 수 있는 경우가 있을 수 있어 한 가지, 즉 수 있는 특별한 경우이다. 너무 집착하지 않고 더욱 위즈 (이 매우 얻을 수 있는 기술) 이므로, 예상 짓궂군요 \mu $ $ # 39 의 응답 distribution& 않습니다 반드시 수학적으로 동일합니까 정식 위치 매개변수 (, 링크 링크 기능을 하는 않는 그 나름대로의 함수은 *. 이 장점은 &quot 최소 $ $ \beta 충분하나니 에로남이네 대한 통계가 exists"; ([독일 로드리게스] [2]). 이진 데이터 링크를 위한 표준 응답 (구체적으로 말해, 이항 분포) 는 로짓. 그러나 구조적인 구성 매핑해야 수 있는 기능을 많아 간격을 관용으로충만하신 용인할 수 없기 때문에, $ $ (0.1) 또 다른 옵션은 사용된 프로빗 이 수축됐는데 아직 널리 사용되는 경우도 있다 (예를 들어 서로 보완됩니다 로그 로그, $ \ln (-\ln (1-\mu) # 39, & # 39, cloglog& $, 이라고도 함). 따라서 가능한 링크 링크 기능을 선택할 수 있는 기능과 많아 매우 중요하다. 일부 조합에 따라 다양한 이뤄져야 한다.

  1. 응답 분포를 알고,
  2. 이론적 고려사항입니다 및
  3. 맞는 실증적인 데이터를. 조금 있으면 좀 더 명확히 이해하는 데 필요한 다루는 이 아이디어를 (용서해라) 의 개념 배경, 내아기마저도 설명하란말야 고려사항입니다 안내선 고객이 선택할 수 있는 링크를 어떻게 이런 데 사용할 수 있습니다. (Let me 참고로 저는 @David& # 39 의 [주석문입니다] [3] 정확하게 포착하는 다른 링크는 왜 실제로 사탄들 .) 베르누이 시행 결과를 미리 시작하여, 응답 가변입니다 경우 (즉, $0$ 또는 $1$) 는 응답이 분배란 적립율은 맑음, 실제로 모델링 및 너희는너희가 관찰을 probability of being a $1$ (즉, $ \pi (y = 1) $). 그 결과, 모든 기능을 제공하는 매핑하므로 실수, $ $ $ $ 를 (-\infty +\infty,) 는 구간 (0.1) 작동합니다. 사용자의 관점에서 고려할 경우 실질적인 이론에 따라 성공 가능성이 높고, 그러면 너회의 공변량 직접 연결되어 있기 때문에 일반적으로 표준 로지스틱 회귀를 선택할 https://partner. 그러나 다음 예제를 살펴보십시오. 일부 공변량 (모델) '' 으로 작동입니다 high_blood_pressure 묻는 메시지가 나타납니다. 혈압 자체가 보통 유통되는 부품설치 (내가 알고 있지만, 실제로 don& # 39 는 일견 타당한 것으로 보인다), 그럼에도 불구하고, 임상의가 동안 이 이분법 (# 39, & # 39, 즉, 그들은 단지 기록된 high-BP& 검토인 # 39, & # 39 normal& 또는,). 이 경우 더 선험적으로 프로빗 약간만이라도 이론 시작했다. 이 것이 무엇을 의미하는지 &quot @Elvis 그러하매 너희의 이진 결과에 따라 숨겨진 가우스 variable". , 대칭 및 다른 것은 모두 고려해 로짓 프로빗 믿는 신앙인들이라면 성공 확률은 있다, 그런데 다 한 것처럼 천천히 zero 에서 더 빨리 테이퍼 오프하도록 클로글로그 호출됨 대한 접근, etc. 마지막으로, 경험적 맞지 않을 가능성이 높다는 점에 유념하십시오 모델의 데이터 링크 링크 기능을 선택할 경우 날까로움 도움이 된 것과 크게 다르지 않다 (재배케하여 를 로짓 및 프로빗 않는다). 예를 들어, 다음 고려해보십시오 배빠르게:

set.seed(1)
probLower = vector(length=1000)

for(i in 1:1000){      
    x = rnorm(1000)
    y = rbinom(n=1000, size=1, prob=pnorm(x))

    logitModel  = glm(y~x, family=binomial(link="logit"))
    probitModel = glm(y~x, family=binomial(link="probit"))

    probLower[i] = deviance(probitModel)
해설 (5)
해결책

이들은 주로 링크 기능이 다릅니다.

로짓: \Pr(Y=1 \mid X) = [1 + e^{-X'\beta}]^{-1}$

프로빗: \Pr(Y=1 \mid X) = \Phi(X'\beta)$(누적 정규 pdf)

즉, 로지스틱의 꼬리는 약간 평평합니다. 즉, 프로빗 곡선이 로짓 곡선보다 축에 더 빨리 접근합니다.

로짓은 프로빗보다 해석이 쉽습니다. 로지스틱 회귀는 로그 오즈 모델링으로 해석할 수 있다(즉, 하루에 25개비 이상의 담배를 피우는 사람은 65세 이전에 사망할 확률이 6배 높다). 보통 사람들은 로짓으로 모델링을 시작합니다. 각 모형의 우도 값을 사용하여 로짓 대 프로빗을 결정할 수 있습니다.

해설 (7)

vinux의 답변 외에 가장 중요한 내용은 다음과 같습니다.

  • 로짓 회귀 분석의 계수 \syslog$는 승산비 측면에서 자연스러운 해석을 갖는다.

  • 확률적 회귀는 이항 결과가 $Z > 0$일 때 $Y = 1$의 결정론적 방식으로 $Z > \sim \mathcal N(0,1)$과 함께 숨겨진 가우스 변수 $Z = \sylon + \ $ [eq . 1]에 좌우된다고 생각할 때 자연스러운 모델이다.

  • 좀 더 일반적으로, 그리고 더 자연스럽게, 일부 $Z_0 = X' \epsilon_0 + \epsilon_0$이 \epsilon \sim \mathcal N(0,\sigma^2)$과 함께 임계값 $c$을 초과할 때 결과가 $1$이라고 생각한다면 확률적 회귀가 더 자연스러운 모델이다. 이것은 위의 사례로 요약할 수 있습니다. $Z_0$를 $Z = {1\over \sigma}(Z_0-c)$로 스케일 변경하기만 하면 됩니다. 방정식 [eq. 1]이 여전히 유지되고 있음을 쉽게 확인할 수 있습니다(계수 크기 조정 및 절편 변환). 예를 들어, 이러한 모델은 $Z_0$가 관찰되지 않는 연속 변수일 수 있는 의료 맥락에서 방어되어 왔으며, $Y$는 $Z_0$이 일부 "병리학적 임계값을 초과할 때 나타나는 질병이다.

로짓 모델과 프로빗 모델은 모두 모델에 불과합니다. "모든 모델이 틀렸고, Box가 말한 것처럼 유용한 모델도 있다"! 두 모델 모두 결과 $Y$에 대한 $X$의 효과의 존재를 검출할 수 있습니다. 단, 매우 특별한 경우는 예외로 그 어느 것도 "really true"가 되지 않으므로 해석은 신중하게 수행해야 합니다.

해설 (2)

이에 대해 해당 기술서임을

  • I& # 39 m, 로지스틱 회귀를 사용하는 경우 사용할 수 있으며, 이 때 더 많은 관심을 vmnet 프로빗 *

여기에 대답을 이미 널려 있는 셨으며 표시하십시오 둘 사이의 선택할 때 고려해야 할 것은 한 가지 중요한 점을 감안하면 hasn& t # 39) 이 있는데, 아직 밝혔다. 관심이 있는 경우 또는 프로빗 모델과 로지스틱 클러스터 내의 연관입니다 바이너리 데이터를 사용하여 효과를 보는 것 같다 "는 이 프로빗 대한 이론적 접지 혼합됨 model. a priori 선호하는 이유는 없다고 가정하고, 이는 물론 로지스틱 모델 (예를 들어 만약 you& 할 수 있는 진정한 시뮬레이션 게임과 안단말이야 # 39, re 모델).

, 최초로 1 단, 이 두 가지 이유를 알 수 있는 것은 이 모델을 토르홀트드 횡단면도 회귀 모델을 작업으로 볼 수 있다. 예를 들어 포지셔닝합니다 $ $ $ $ i j 클러스터 내 관찰을 위한 간단한 선형 혼합됨 효과 모델:

{} {} {\star ^ $ $ y = {}} + + j ij \mu \eta \varepsilon_ ij $ $

여기서 $ $ $ 는 클러스터와의 \sim \etaj ᄂ씨 (0, \sigma ^ 2)} {$ $ $ 는 무순서 효과 및 j \varepsilon ij 오류 용어입니다. 로지스틱 회귀 모델은 마련했습니까 모두가 및 프로빗 모델과 임계값 이 0 에서 커브로부터 생성되는 部门是这样的 가리킨다.

$ $ ij y_ = {} 1} {건 \begin &amp. \text {} {} {} ^\\ y-축 경우 \star _을 0\ ij \ \\ {}, {0} &amp \text {} _을 경우 y ^ \star ij < 0 건 \end {} $ $

이 용어는 일반적으로 ij} {$ $ \varepsilon_ 경우 분산, 넌 프로빗 회귀 및 물류 경우 로지스틱 회귀 모델은 분산 있습니다. 이러한 오류는 표준으로 지정된 이후, 일반 및 표준 로지스틱 잔차 규모는 확인되지 않은 것으로 조사됐다.

  • 피어슨 (1900년) 생성된 것으로, 이 경우 일반적인 데이터 및 다변수 토르홀트드 범주 사이의 상관 관계를 수 있는 기본 com/go/4e6b330a_kr 여전히 통계적으로 식별됨 - 이러한 상호 관련성을 , 와 관련된 이진 경우, 이들은 모두 상호 관련성을 스스로의 폴리코릭 상호 관련성을 * 테트라호릭) 이라고 한다. 즉,) 는 일반적으로 급내 프로빗 모델과 기본적인 상관 계수가 bsbab-분산 com/go/4e6b330a_kr:

= \frac {} {} {\rm ICC $ $ {2}} {} {\sigma \hat \hat \sigma ^ ^ 2} + 1} {$ $

  • 프로빗 측정하는 경우, 즉 식별됩니다 있는 공동 분포됩니다 잠재적 변수 * 초래할 수 있기 때문입니다.

로지스틱 모델은 로지스틱 모델이 아직도 식별됨 변화를 무작위 효과가 있는 것은 아니지만 (즉, joint distribution) 를 측정하는 완전히 혼합된 구조를 갖고 있기 때문에 로지스틱 확률 변수 간의 수직 및 지정된 것은 완전히 없는 속성 및 공분산 매트릭스 짓궂군요 있다. 그는 이 홀수입니다 패라메트릭이 기본 전제는 잠재적 변수 때문에 해석이 임의적입니까 해석할 수 있는 효과를 로지스틱 모델은 일반적으로 명확하지 않다.

해설 (2)

중요한 점은 이전 (뛰어난) 은 실제 ruettgers 않은 응답을 예측하는 단계. Pdf 는 다항 로짓 모델 투명지에 용이한 통합, 주요 단힌 양식 expression of the 솔루션으로서의 확률. 이 기능은 그리 쉽게 프로빗 모델과 밀도입니다 정규 분포를 통합되므로, 일반적으로 필요로 하는 시뮬레이션. 그래서 실제 환경의 경우, 일반적으로 두 모델 모두 동시에 사용할 수 있는 대규모 문제를 빠르게 추상화를 로짓 (여러 대안 또는 대형 데이터세트를).

이 보다 명확하게, 특정 결과를 볼 수 있는 확률은 뽑힌 $ $ $ $ x 는 작동입니다 \varepsilon 약관보다 독립 변수 및 오류 (정보정의다음 교육)

$ $ P = \int 내가 [\varepsilon &gt. \beta& # 39, x] d\varepsilon f (\varepsilon) $ $ 여기서 1 은 내가 선택한 경우, 그렇지 않으면, 제로 표시자가 함수은 $ $ 이 정수 평가를 전제로 $ $ f (x) 에 상당히 다릅니다. 이는 받을시간은 로짓 모델, 표준 로지스틱 및 배급을 프로빗 모델이다. 이 경우, 로짓 모델 됩니다

$ $ P = {} {} ^ \infty \int_ \varepsilon \beta& # 39, x = - f (\varepsilon) d\varepsilon\ = 1 = {1} {\exp 1-\dfrac (-\beta& # 39, x) - F (x, \beta& # 39)} $ $

그러한 프로빗 모델과 위한 편리한 형태로 존재합니다.

해설 (4)

내가 무슨 말 할지 무리라구 무효화합니다뵸遮 지금까지 왔다 "고 말했다. 난 그냥 프로빗 모델과 겪을 수 있다는 지적이 없는 IIA 가정을 로짓 모델 (독립에 관련이 없는 대안), 그리고 않습니다.

예를 들어, s Train& # 39 에서 사용할 수 있는 훌륭한 책이다. 버스를 타고 갈 수 있는 예측 할 경우 로짓 표시할지를 파란색, 빨간색 자동차, 버스 또는 드라이브 내 차에 모두에서 파랑입니다 버스 비율에 따라 추가 그려 넣은 것이다. 프로빗 모델과 사용하지만 이 문제를 방지할 수 있습니다. 즉, 대신 그리던건데 그릴 수 있기 때문에 더욱 더 많은 협조를 모두에서 비례, 파란색 버스를 대용.

희생 할 수 없다는 것을 지적한 대로 단힌 양식 솔루션뀉뀉뀉뀉 명이다. Iia 문제를 걱정하고 있을 때 나는 내 이동 프로빗 경향이 있다. # 39, s, t # 39 라고 aren& that& 않도록 할 수 있는 방법을 IIA 를 해결하기 위해 로짓 프레임워크 (GEV 배포). 그러나 이와 같은 종류의 모델을 I& # 39, ve 항상 주위의 방향을 바라볼 때 어설픈 문제다. 계산 속도를 얻을 수 있는, 내가 이렇게 말할 수 있는 함께 "프로빗.

해설 (2)

그 중 가장 잘 알려진 차이점 및 프로빗 로짓 (이론상) 는 회귀 잔차 분배란: 표준 로지스틱 로짓 프로빗, 대해 (참조하십시오. 계량경제학 치체스터 코로프 G. 소개, 윌리: 2008년: 280).

해설 (1)

질문에 대한 답을 제공할 경우, 해당 &quot 초점을 맞추고, 내가 실제로 사용할 수 있으며, 통계 정보, 로지스틱 회귀를 사용하는 경우, 받지 못한 채 probit&quot 에 초점을 맞춘 것이 아니라, 决策 통계를 근거로. 그 두 가지 주요 창조하셨노 따라 달라집니다. do you have a 만 잘 돌볼 수 있는 모델을 지향, 징계 보관합니까 데이터의?

    • 기본 차이 모두 로짓 모델 및 프로빗 가능성을 주는 통계 모델은 종속 응답 변수 값은 0 또는 1 이 됩니다. 그들은 서로 다른 기능을 사용하기 때문에, 종종 매우 유사한 점을 감안하면 사실상 이덴시알 결과가 있지만, 그 결과를 수를 계산하기 위해 조금씩 다른 경우도 있다.
  • 징계 기본 * 일부 학술 분야에 대한 포지셔닝하십시오 일반적으로 하나 또는 다른. 예정이면 형상게시 또는 충족되었으며 학술 분야가 기존 선호도, 그럼 sys_memsize 특정 결과를 χ02) 를 선택할 수 있도록 하는 발견사항 약간만이라도 보다 쉽게 사용할 수 있습니다. 예를 들어 (메서드을 컨설턴트 에서) &gt. - 좀 더 대중적인 in health) 는 로짓 소트트웨어용 로지스틱 회귀 &gt. 일부 과학 같은 계수를 역학 때문에 수 있습니다. &gt. 이런 측면에서 해석할 제거율. 프로빗 모델과 일반화 될 수 있습니다. &gt. 더 고급 분산 상수아닌 고려하여 오류 &gt. 경제학 설정 (헤트로스케다스틱 프로빗 알려진 모델) 와 &gt. 이에 따라 일부 경제학자들과 의해 사용되는 컨텍스트로 정치적 &gt. 과학자들은. 이 점은 이해할 수 있는 능력 차이를 결과가 그러하매 경미함 단축시킵니다 결과 보다 중요한 두 가지 방식은 일반 관객을 부 차이점은.
  • 만약 모든 것이 fit. 대한 신경습니까 연구 분야는 포지셔닝하십시오 않는 경우) 는 둘 중 한 후 내 검토인 이 질문의 (어떤 것이 더 로짓 프로빗 또는,) 는 보통 led 나를 더 잘 사용할 수 있다는 사실 때문에 거의 항상 프로빗 , * 통계 데이터를 부여하느뇨 로짓 모델 맞추기 같거나 더 있는 것. 가장 주목할 만한 예외가 로짓 모델 열거하십시오 때 더 적합할 경우, 익스프림 비종속 variables&quot &quot 있다. (어떤 난 설명하란말야 참조). 거의 전적으로 내 결론이다 기반 (vora 검색: 수많은 다른 소스뿐만) 를 한선생, E. D. &amp. 소이어, R. (2005년). 프로빗 및 로짓 모델: 다변수 차이를 것이다. Http://ipw2100.sourceforge.: http://citeseerx.ist.psu.edu/viewdoc/download? = = = rep1&amp, 유형, 도이 10.1.1.329.4866&amp 담당자별로 pdf. 다음은 요약 (영문) 에서 내 실제 모델은 더 적합할 로짓 대對 프로빗 진단트리 결론 여부와 관련해 다변량 데이터 (이러한 결론을 낼 수도 있지만, 그들은 단지 두 개의 독립 변수를 적용하십시오 일도량 모델용 시뮬레이트됨 효과를):
  • 로짓 프로빗 모델과 마찬가지로 잘 맞출 수 있는 데이터 및 대부분의 상황에서, 이 다음 두 가지 예외가 있습니다.
  • , 의 경우, 더 큰 문제는 로짓 &quot 익스프림 비종속 variables&quot. 특히 크고 작은 값을 그것은꿈의 종속변수 있는 경우가 압도적으로 0 또는 1 종속적입니다 여부를 결정할 것이라고 가변입니다 효과를 재정의을, 대부분의 다른 변수. 따라서 공식적으로 한선생 및 소이어 정의하십시오 (p. 4): &gt. 극단적인 두 部门从 3 개의 독립 변수를 수준 &gt. 이벤트. 첫째, 극단적인 독립 변수를 수준 테스트타사의 선수단 &gt. 상위 또는 하위 익스프림 독립 변수. 예를 들어 &gt. 독립 변수 x 의 값에 따라 1, 2, 및 3.2 취할 수 있었다. &gt. 독립 변수 값을 mediaagent 아니하였으매 http://support. x = 최고 수준 &gt. 3.2 (또는 x = 1). 둘째, 많은 비율 (예: 60%) 의 총 n 이 수준 이상이어야 합니다. 셋째, 성공을 확률 &gt. 이 수준 자체를 할 수 익스프림 (예: 99% 이상).
  • , ) 가 잘 &quot 프로빗 또는 크게 높지 않은 경우, 임의의 효과 models&quot 샘플 크기 (it is equal to 로짓 소규모 샘플 크기). 프로빗 모델과 같은 높은 고정 및 로짓 좋은 효과가 있다. # 39, t really don& 내가 이해하는 한, 소이어 짓궂군요 &quot 무순서 효과를 통해 models"; 그 글. 비록 많은 redefinitions 공급됩니까 (이처럼 스택할 마운트-exchange 질문), 이 정의는 실제로는 form, 일관성 없는. 그러나 더 중요한 것은 결코 로짓 프로빗 이와 관련, 논쟁의 여지가 렌더링됩니다 선택하는 것만으로 프로빗.

    39 의 분석을 기반으로 한, Soyer& 항상 flfile. 프로빗 모델과 로 내 결론이다 제외) 의 경우, 이 경우 익스프림 종속변수 기능을 로짓 선택해야 합니다. 공통, 아주 쉽게 인식할 수 있는 모든 익스프림 종속변수 않습니다를 합니다. 이 규칙에 따르면, 이 모델은 임의적입니까 효과 t # 39, doesn& 나열할지 문제가 있는 경우에는 모델이 임의적입니까 효과 모델 모델 방관하겠나. (여기서 프로빗 선호하고 있다) 수축됐는데 익스프림 종속변수 (여기서 로짓 선호하고 있다), 비록 한선생 및 소이어 didn& # 39, t, 내 인상을 여기있을 주석문입니다 그들위에 문서는 그 효과는 더 지배적인 로짓 독립 변수가 될 것이라고, 그래서 아주 좋습니다.

해설 (0)

아주 특별한 건, 그 아래에 있는 것처럼, 나는 설명하란말야 예측기를 프로빗 및 로짓 수 있는 테스트 원하는거요 적합합니다.

모두 받을시간은 잠재변수 모델 및 로짓 프로빗 중첩할 수 있습니다

$ $ y_i ^ * = x_i \beta + \varepsilon_i, \quad \sim \varepsilon_i ᄀ씨 (\cdot), $ $

여기서 observed component 는

= $ $ y_i \mathbb {1} (y_i &gt. ^ * 0). $ $

$ $ 를 선택하면 될 경우에는 일반 cdf 확보하십시오 ᄀ씨는 프로빗, 로지스틱 cdf 확보하십시오 로짓. 어느 쪽이든, 이 가능도) 는 양식

$ $ \ell (\beta) = y_i \log ᄀ씨 (x_i\beta) + (1-y_i) $ $ \log [1 g (x_i\beta)].

하지만 염려되는 경우 어떤 가정 너회가 예증의표적으로 클라인 &amp 사용할 수 있습니다. 스파디 (1993년). 이코노메트리카) 예측기를. 이 예측기를 완전히 이루어질 수 있는 너회의 사양명세에 cdf, $ $, 심지어 그 타당성을 테스트할 수 있습니다 다음 ᄀ씨는 보통 또는 로지스틱니스 (?).

의 클라인 &amp. 대신 온 스파디, 함수 () 는

$ $ \ell (\beta) = {} (x_i\beta) + (1-y_i) \log y_i \log \hat ᄀ씨는 [1-\hat ᄀ씨} {(x_i\beta)], $ $

여기서 G 는 {} (\cdot) $ $ \hat 비패라메트릭 추정치입니다 cdf, 예를 들어, 회귀 예측기를 나다라야 왓슨입니다 사용하는 커널 예상

g (z) = \sum_ {1} {i = $ $ \hat} \frac {K\left y_i ^ N (\frac {} {} \right xi\beta - h z)} {1} ^ N = \sum {j (\frac {} {} \right x_j\beta - h z)} K\left $ $

여기서 K 는 $ $ 호출됨 &quot Kernel"; (대개 삼각형 또는 가우시안 cdf 커널이 사탄들), 그리고 $ h $ 는 bandwidth&quot ";). 하지만 한 가지 값을 좀 더 복잡하고 플러그인에는 rmw 대한 수 많은 it over $ $ $ $ h 더 복잡하게 만들 수 있는 외부 최적화이든 \beta 경우 모든 단계를 변화를 ($ h $ 밸런싱됩니다 편향-분산 트레이드오프 소위 ).

  • Improvements:* 이치 무라 ᄀ씨} {$, 떠날 수 있다 "고 밝혀 작업자쪽에서 커널 회귀, $ $ $ i 아웃해야 \hat th 관측. 그렇지 않으면 $ $ h 선택할 수 있는 문제가 의해 복잡하게 끝날거요 피팅이면 샘플링합니다 (너무 높은 분산을).

  • Discussion:* 로컬 간주할 수 있다는 단점이 있는 한 스파디 클라인 예측기를 에 고정되었습니다 확보하십시오. 주어진 $ $ $ $ ᄀ씨는 cdf 적응합니다 \beta 때문이다 - 매개변수입니다. I know it 융합 및 구축 문제를 피하는 것이 아니라, 그동안 여러 학생들이 날잡아 숫자 문제. 디바이스이므로 작동하도록 예측기를 쉽지 않다. 또 이 매개 변수는 $. $ G 에 의해 복잡하게 약간 패라메트릭이며 위한 사양명세를 추론 예상

해설 (0)

이들은 매우 유사합니다.

두 모델 모두 $1$ $ $ Y = X 의 가능성을 감안할 때 가능성을 무순서 숨은 변수 $ S $ 한 것으로 볼 수 있다 (특정 고정식입니다 분배란 함께) $ $ X 에 있는 특정 임계값에 다음은 그만큼 확장됨 다릅니다.

$ $ P (Y = 1 X) = P (X, \beta S&lt) $ $

그 고윳값은 다음과 같다:

p (Y = 1 X) = $ $ $ $ P (\beta X-S> 0)

39 의 모든 문제에 대해 선택한 후 it& 너희는너희가 분포됩니다 $ S $:

  • 로지스틱 회귀, $ S $ 는 로지스틱 분포.
  • S $ $ 의 정규 분포를 회귀 프로빗 있다.

$ $ \beta 의해 자동으로 곱하여 분산이 중요하지 않은 만큼 보상을 상수입니다. 뿐만 아니라 사용하는 경우 요격할 짓궂군요 중요하지 않습니다.

하한계 효과를 본 것으로 볼 수 있다. 일부 E = $ $ $ $ X) 는 보이지 않는 결과를 \beta x 의 작동입니다 일부 소음입니다 s $ $ - 추가되든지 닮은 선형 회귀 및 성과를 얻고 0/1 말해.

$0 $1$ $ Y = 상기하 E&gt, 결과가 있다. $0 $0$ $ Y = 상기하 E&lt, 결과가 있다.

로지스틱 및 프로빗 차이점은 로지스틱 분포와 정규 분포의 차이가 있다. # 39 좁히어 ain&, t, 그렇죠? 또 한 번 같이 조정할 수 있다. ! [입력하십시오. 이미지 여기에 설명을] [1]

로지스틱 는 무거운 꼬리를 갖고 있다. 이 사건을 어떻게 영향을 줄 수 조금 작은 (&lt, 1%) 또는 높음입니다 (&gt, 99%) 장착 가능성이 있다. 대부분의 경우, 눈에 띄는 차이가 거의 없다. 로짓 및 프로빗 본질적으로 같은 일을 할 수 있다. 글 =, = 2237&amp 컨텍스트로 문서 참조 http://scholarworks.rit.edu/cgi/viewcontent.cgi?

&quot Philosophically&quot 수 있다 '는 원칙에 의해 로지스틱 회귀, 자리맞춤 해당하는, 최대 보였다. http://www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regression-and-maximum-entropy-models/

측면에서 계산법: 로지스틱 는 이후 누적 분포 는 단힌 달리 이 공식을 간단해진다는 로지스틱 분포가 정규분포. 그러나 정규 분포의 경우, 이 때문에 종종 좋은 특성는 gnu. orghttp://www. 다차원 프로빗 고급 건 기본.

해설 (0)