[Statistics] Bayesian II
Updated:
데이터 사이언티스트 되기 책: https://recipesds.tistory.com/
Conjugate Prior
이전에 켤레 사전분포(Conjugate Prior)에 대해 언급한 적이 있는데, 다시 정리해보면 Prior가 있는데, 이 Prior 중 베이지안 정리를 통과하면 Posterior가 Prior와 같은 형태가 되는 것이 있다. 따라서 특정 Likelihood에 대해서 사후분포와 사전 분포가 같은 분포가 나오는 경우들의 Prior를 Likelihood에 대한 켤레(Prior Conjugate)라고 했었다.
그렇다면 Prior를 적당하게 정하고 나면 관측한 현상에 맞는 Likelihood가 있어야 하는데, Likelihood는 실제 데이터를 가지고 결정하므로 Prior보다 훨씬 더 구체적이다. 사실상 Prior는 어떤 모형이 어떤 모형이 어떤 분포를 갖는가에 대한 적당한 믿음을 나타내고, Likelihood는 데이터가 주어졌을 때의 구체적인 모형을 설명하기 때문에, 굳이 따지자면, Likelihood를 먼저 정하고, 그에 맞는 Prior를 정하는 것이 조금 더 효율적이다. 즉, 데이터의 분포를 잘 설명하는 Likelihood를 결정한 후에, Prior를 결정하는게 더 편리한 순서라는 것이다.
또 한가지는 모델링 특면에서 Likelihood는 데이터를 모델링, Prior는 Parameter를 모델링한다는 점이다. 따라서 Prior를 고를 때에는 Likelihood에서 사용하는 Parameter를 잘 표현하는 확률모형이어야 한다는 뜻이다.
보통 다음과 같이 관측된 데이터의 특징에 따라 각 Likelihood를 정하고 그에 대하여 적절한 Prior를 사용하면 Posterior가 Prior와 같아지는 Conjugate관계를 만들 수 있어서 편리해진다. 예를 들면 다음과 같은 식이다.
이전 가우시안 베이지안을 보았을 때 처럼 가우시안을 Likelihood로 관측 데이터를 모델링했으니까, Prior는 가우시안으로 모델링하면 된다. 이렇게 Prior를 정하게 되면 Posterior가 Prior와 같은 분포를 갖게 되므로 무한히 순환 관측할 때, 모수의 분포를 순환해서 업데이트할 수 있게 된다.
보통 Prior는 Likelihood를 모델링한 후에, Exponential family (Gaussian, Gamma, Beta 등)에서 선택하는 경우가 많은데 말이죠, 그게 대부분의 데이터들이 Positive Skewed 한 모양을 띄고 있기 때문이다. 더 정확하게 이야기하면 likelihood가 Exponential family로 모델링할 수 있을 때, prior를 적절한 Exponential family로 선택하게 되면 posterior와 prior가 같은 family에 속하게 된다는 뜻이다. 이렇게 Prior와 Posterior가 같은 분포를 같게 되는 걸 Conjugate관계라고 한다.
Binomial Distribution - Beta distribution Conjugate
이전에 베타분포와 베타분포에 베이지안 룰을 적용하는 예시를 살펴본 적이 있었다. 이번에는 좀 더 자세히 다뤄볼 것이다. 베타분포는 Binomial처럼 이항 결과에 대한 확률 분포를 다루는 것인데 Bernoulli와 Binomial의 경우에는 성공의 횟수가 확률 변수인 것에 비하여 β는 성공의 “비율”을 확률 변수로 하는 경우를 다룬다. 베타분포의 식을 다시 살펴보면 다음과 같다.
\[f(p) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} p^{a-1}(1-p)^{b-1}\]즉 성공확률을 p라고 두었을 때 성공확률이 p일 확률 즉, 확률의 확률이 결과로 나오게 된다.
그리고 베타분포는 mode가 가장 중요한데 이유는 mode에서 확률밀도가 가장 높기 때문이다.
\[mode=\frac{\alpha-1}{\alpha+\beta-2}\]이 점을 상기한 체로 우선 Binomial분포에 베이지안 룰을 적용해 보자. 성공 횟수를 m, 성공 확률을 p라고 둔다면 연속형 베이즈룰은 다음과 같다.
\[P(p \vert m) = \frac{P(m \vert p) \cdot P(p)}{P(m)} = \frac{P(m \vert p) \cdot P(p)}{\int P(m \vert p)P(p) dp} \cdots (*)\]이제 Likelihood를 Binomial Distribution으로 Prior Distribution을 Beta분포로 놓은 케이스를 살펴보자.
Likelihood의 경우, $P(m \vert p) = \binom{n}{m} p^m(1-p)^{(n-m)}$의 Binomial Distribution으로 나타낼 수 있고, (m이 성공 횟수) Prior의 경우, $P(p)=\frac{1}{B(\alpha, \beta)}p^{\alpha-1}(1-p)^{\beta-1}$의 베타분포로 둘 수 있다.
그러므로 (*)식의 베이즈 정리에 대해 정리해 보면 우선 분자는 다음과 같다.
그리고 분모는 다음과 같다.
따라서 분모 분자를 합치면 다음과 같이 된다.
결과를 해석하면, Binomial 분포에서 n이 전체 시행 수 이고, m이 성공 수 이므로 n-m이 실패 수가 된다. 따라서 $\alpha$번 성공, $\beta$번 실패인 사전 확률분포에서 추가로 n번의 시행을 했을 때, posterior에서 $\alpha+m$은 기존 성공 수+추가 성공 수를 의미하고, $\beta+(n-m)$은 기존 실패 수+추가 실패 수를 의미한다.
결국 posterior=Beta(추가 성공, 추가 실패)의 의미가 된다.
Dirichlet distribution
https://recipesds.tistory.com/entry/%EC%9D%B4%ED%95%AD%EB%B6%84%ED%8F%AC-%EB%AA%A8%EC%88%98-%EC%B6%94%EC%A0%95%EA%B3%BC-%EB%B2%A0%ED%83%80%EB%B6%84%ED%8F%AC-%EB%B3%B8%EA%B2%A9-Conjugate-%EC%9D%B4%EA%B1%B8-%EC%95%94%EC%82%B0%EA%B0%80%EB%8A%A5
Leave a comment