Bayesian Estimation

베이지안 철학의 모티브는 다음과 같다.
- 만약 우리가 에 대한 사전(prior) 정보를 알고 있다면 이는 더 나은 추정에 활용될 수 있다. 하지만 이를 위해서는 에 대한 prior pdf가 미리 주어져 있거나 계산할 수 있어야 한다.
- Bayesian 추정은 MVUE를 찾는 것이 불가능한 경우 사용하기 좋은 방법이다. 예를 들어 특정 불편추정값(unbiased estimator)의 분산이 다른 불편추정값들의 분산보다 일관되게 작지 않은 경우를 생각해보자. 이런 경우 고전적인 방법으로는 MVUE를 찾는 것이 불가능하므로 파라미터 에 pdf를 적용함으로써 우리는 그 추정값 을 찾는 방법을 생각할 수 있다. 가 다른 추정값들보다 평균제곱오차(MSE)가 작다면 이는 최적의 추정값이라고 결론지을 수 있다. 즉, 파라미터 에 대한 확률적인 가정을 함으로써 차선의 추정값을 찾을 수 있는데 이러한 관점이 Bayesian 관점이다.
Why Bayesian?
우리가 흔히 알고 있는 확률의 보편적인 정의는 빈도론에 입각한 정의라고 생각하시면 됩니다. 그렇다면 왜 베이지안이라는 관점이 있는 걸까요? 사실 우리는 경험적으로 모든 확률을 얻기에는 한계가 있습니다. 따라서, 사전지식을 활용해서 우리가 알고싶은, 경험적으로 얻기 힘든 사건에 대해 확률을 추정하는 것이 필요합니다. 예를 들면 이런겁니다. 가령, 우리가 한번도 시도해보지 않은 컨테스트에서 우승할 확률은 어떻게 알 수 있을까요? 우리가 이때 이용하는 것이 여러 지식들을 동원해서 우승과 관련된 요소들을 뽑고, 이를 통해 확률을 도출하는 방법일 것입니다. 이러한 과정이 바로 베이즈 정리에 입각한 베이지안 추론입니다.
최대 우도법과의 차이점:
최대 우도법에서는 찾고자 하는 진정한 매개변수 벡터 theta 를 고정된 값으로 간주.
베이지안 학습에서는 theta를 확률 변수로 간주, 즉 데이터에 따라 theta의 분포를 정적으로 이해.
이러한 패턴 분류 접근 방식은 데이터가 주어졌을 때 발생할 수 있는 불확실성을 추정하는 데 유용합니다. 베이지안 방법은 매개변수를 확률로 다룸으로써 더 유연한 모델링을 가능하게 합니다.
Bayesian estimation과 Maximum Likelihood Estimation (MLE)은 통계적 추정 방법으로, 주어진 데이터로부터 파라미터를 추정하는 데 사용되지만, 이 두 접근법은 여러 면에서 다릅니다. 주요 차이점은 다음과 같습니다:
1. 추정 접근 방식
Bayesian Estimation:
Bayes' 정리를 사용하여 사전 정보(prior information)와 데이터를 결합합니다.
파라미터에 대한 사전 분포(prior distribution)를 설정하고, 이를 데이터에 의해 업데이트하여 사후 분포(posterior distribution)를 얻습니다.
예를 들어, \( p(\mu | D) \)와 같이 평균 \( \mu \)에 대한 추정을 진행합니다.
Maximum Likelihood Estimation (MLE):
Likelihood 함수(likelihood function)를 최대화하여 파라미터를 추정합니다.
데이터가 주어졌을 때, 가장 가능성 높은 파라미터 값을 찾습니다. 즉, \( \mu \)가 데이터 \( D \)에 대해 최대화되는 \( p(D | \mu) \)를 찾습니다.
2. 사전 정보 사용
Bayesian Estimation:
사전 분포를 사용하여 이전의 지식이나 믿음을 반영할 수 있습니다. 이는 추정의 결과에 큰 영향을 미칠 수 있습니다.
예를 들어, 사전 분포를 잘 설정하면 샘플 사이즈가 작은 경우에도 유용한 정보를 제공합니다.
MLE:
사전 분포를 사용하지 않고 오로지 관측된 데이터에만 의존합니다.
데이터가 충분히 많을 경우, MLE는 일반적으로 일관성과 비편향성을 보장하지만, 샘플 수가 적을 경우 결과가 불안정할 수 있습니다.
3. 결과의 해석
Bayesian Estimation:
사후 분포를 통해 파라미터에 대한 믿음을 표현할 수 있으며, 신뢰 구간이나 가장 가능성이 높은 값을 제공할 수 있습니다 (예: 95% 신뢰 구간).
사후 분포는 파라미터에 대한 불확실성을 반영합니다.
MLE:
최대화된 확률 변수를 통해 단일 점 추정을 제공합니다. 일반적으로 파라미터의 최적 추정값을 제공하지만, 불확실성에 대한 정보는 제공하지 않습니다.
MLE 결과에 대한 불확실성은 표준 오차 또는 정보를 기반으로 후속 분석을 통해 추정할 수 있습니다.
4. 계산적 복잡도
Bayesian Estimation:
계산적으로 복잡할 수 있으며, 특히 높은 차원이나 비구조적 모델일 경우 계산적 어려움이 존재할 수 있습니다. 샘플링 기법(예: MCMC)을 사용해야 하는 경우도 많습니다.
MLE:
상대적으로 간단하게 최대화 문제를 해결할 수 있으며, 최적화 알고리즘(예: 경사 하강법)을 사용하여 직접 계산할 수 있습니다.
요약
Bayesian estimation은 사전 정보와 데이터를 모두 고려하여 파라미터의 불확실성을 반영한 추정을 제공하며, MLE는 주어진 데이터만으로 파라미터를 추정합니다. 각 방법은 서로 다른 상황에 따라 장단점이 있으며, 문제의 특성과 데이터의 특성에 따라 적절한 방법을 선택해야 합니다.
[Reference]
Richard O. Duda, Peter E. Hart, David G. Stork - Pattern classification (2001, Wiley)