머신러닝 개발자의 러닝머신

[통계/수학] MLE(Maximum Likelihood Estimation, 최대우도법) : "데이터를 가장 잘 설명하는 원래 분포를 찾자" 본문

ML.AI/선형대수,통계

[통계/수학] MLE(Maximum Likelihood Estimation, 최대우도법) : "데이터를 가장 잘 설명하는 원래 분포를 찾자"

oongsong 2023. 7. 30. 22:06
반응형

 

 

안녕하세요🤓

 

오늘은 데이터 밀도 추정 방법으로 많이 사용되는 

최대우도법에 대해서 알아보겠습니다.🔎

 

 

 

우도(likelihood, 가능도)란?

 

최대 우도법은 말 그대로 우도를 최대화하는 지점을 찾는 것을 의미합니다. 

이를 이해하기 위해 우도의 개념에 대해 먼저 알아보겠습니다.

 

우도 (likelihood, 가능도)는 주어진 관측값(데이터)이 특정 확률분포에서 나왔을 가능성을 의미합니다. 

즉, 우도는 데이터가 특정 확률모델과 잘 맞는 정도를 말합니다. 

 

우도는 주어진 데이터에 대한 특정 확률 밀도의 값들을 모두 곱한 값으로 정의합니다. 

 

 

최대 우도법 (Maximum Likelihood Estimation, MLE) 

 

최대 우도법은 앞에서 언급한 것처럼, 주어진 데이터를 가장 잘 설명하는 확률 분포를 찾는 과정으로, 

데이터가 특정 확률모델과 잘 맞는 정도인 우도가 최대가 되는 확률 분포를 모집단의 분포로 추정하는 것입니다. 

 

 

likelihood, 우도를 수식으로 표현하면 다음과 같습니다.

어떤 모수 θ로 결정되는 확률분포의 확률 밀도 함수를 P(X), 해당 확률 분포에서 추출된 표본의 집합을 x = (x1, x2, ,,, xn)이라고 할 때, 특정 확률분포에서 각 데이터에 대한 확률밀도 값을 모두 곱해 우도(likelihood)를 구할 수 있다. 이 때, 곱해주는 이유는 모든 데이터의 추출이 독립적이기 때문입니다. 

 

이렇게 파라미터 θ로 표현된 가능도 함수(likelihood function)에서 가능도값이 가장 큰 θ를 구하는 과정을 통해 

데이터를 가장 잘 설명하는 확률 분포를 결정할 수 있습니다. 

이를 위해 가능도 함수를 θ에 대해 미분을 하고 극값이 0이 되는 θ를 찾을 수 있습니다. 

 

 

 

 

확률(probability)과 우도(likelihood)의 차이

 

확률과 우도 모두 확률분포와 데이터의 관계를 이용해 가능성을 구한다는 점에서 종종 유사한 개념처럼 느껴집니다. 

하지만, 알고보면 확률과 우도는 정확히 정반대의 개념인데요, 

 

 

먼저 확률(probability)분포(확률모형)가 주어졌을 때 해당 관측값(데이터)이 나올 가능성을 의미합니다. 특정 분포에서 발생 가능한 사건이 정해져있기 때문에 모든 사건의 확률의 합은 1이 됩니다.

 

 

우도(가능도, likelihood)는 주어진 관측값이 해당 확률분포에서 나왔을 가능성을 의미합니다. 가능도는 관측값(데이터)를 가장 잘 설명하는 분포의 모수를 찾는 것으로, 주어진 데이터가 어떤 분포를 따를 가능성이 높은지를 나타냅니다. 

 

 

다시 말하면, 확률은 확률 공간이 정해진 상태에서 어떤 사건이 일어날 가능성이고, 

우도는 확률 공간이 주어지지 않고, 어떤 데이터만 있을 때, 해당 데이터가 어떤 분포로부터 나왔을 가능성을 의미합니다. 

 

 

최대 우도법의 활용 

 

최대 우도법은 로지스틱 회귀의 모수를 추정하는 것 뿐만 아니라 다양한 분포의 모수를 구하는 등 다양하게 활용됩니다. 

 

로지스틱 회귀분석에서 최적의 가중치값을 찾기 위해 사용되는데,

이는 다음 포스트 <선형회귀와 로지스틱 회귀>에서 선형회귀와의 비교를 통해 자세히 이야기해보겠습니다.

 

👉🏻https://eunsun-develop.tistory.com/53

 

[머신러닝]로지스틱 회귀(Logistic Regression) "범주데이터 분류는 확률 기반의 예측으로 치환한다"

/ 안녕하세요-🤓 오늘은 "회귀"의 개념과 선형 회귀, 로지스틱 회귀에 대해서 알아보겠습니다. 분류 문제에 주로 사용되는 로지스틱 회귀가 왜 연속 변수의 값을 예측하는 회귀의 문제인지 헷갈

eunsun-develop.tistory.com

 

 



 

오늘은 모수의 추정을 위해 사용되는 최대 우도법(MLE)에 대해서 알아봤습니다. 

통계적인 분석뿐만 아니라 머신러닝 모델의 학습 과정에도 사용되는

아주 중요한 개념입니다.

 

 

조금이라도 도움이 되셨기를 바랍니다!😄

 

 

 

 

 

** References 

https://heeya-stupidbutstudying.tistory.com/entry/%ED%86%B5%EA%B3%84-%EC%B5%9C%EB%8C%80%EC%9A%B0%EB%8F%84%EB%B2%95Maximum-Likelihood-Estimation

https://m.blog.naver.com/jamiet1/221255150381

https://smartstuartkim.wordpress.com/2018/12/28/maximum-likelihood-estimation-%EC%B5%9C%EB%8C%80%EC%9A%B0%EB%8F%84%EB%B2%95/

https://misconstructed.tistory.com/75

https://heeya-stupidbutstudying.tistory.com/entry/%ED%86%B5%EA%B3%84-%EC%B5%9C%EB%8C%80%EC%9A%B0%EB%8F%84%EB%B2%95Maximum-Likelihood-Estimation

반응형