欲速不達

일을 급히 하고자 서두르면 도리어 이루지 못한다.

Fantastic AI, Fantastic World

DS | Data Science/Statistics & Math

[정리] 확률론

_껀이_ 2022. 9. 22. 15:53
728x90
반응형

1. 확률분포

 확률분포(Probability Distribution)은 확률변수가 특정한 값을 가질 확률을 나타내는 함수이다.

여기서 확률변수(Random Variable)는 확률적으로 결과값이 정해지는 변수를 의미하는데, 머신러닝에서는 일정한 데이터 공간에서의 존재하는 데이터라고 볼 수 있다.

확률분포의 형태에 따라 확률변수는 두 가지로 분리가 되고 이에 따라 두 가지 유형의 확률분포가 생긴다.

 

 

   1-1)이산형 확률분포

     이산형 확률변수에 따라 형성된 확률분포이다. 이산형 확률분포는 확률변수가 가질 수 있는 경우의 수를 모두 고려한       확률을 더해서 확률질량함수를 모델링한다.

확률질량함수

 

   1-2)연속형 확률분포

     연속형 확률변수에 따라 형성된 확률분포로써 데이터 공간에 정의된 확률변수의 밀도에 따라 적분을 통해 확률밀도함      수를 모델링한다. 이때, 밀도는 누적확률분포의 변화율을 적분한 것이며 해당 변수에 대한 확률은 아니다.

확률밀도함수

 

2.조건부확률

조건부확률은 입력변수에 대한 정답의 확률을 말한다.

조건부확률

입력변수 B에 대해 정답이 A일 확률이며, 벡터 B라는 데이터가 주어졌을때 label이 A일 확률이라고 할 수 있다.

  • 회귀 : 조건부기대값을 사용하여 값을 추정
  • 분류 : softmax(Wx+b)는 데이터 x로부터 추출된 feature와 가중치행렬 W을 통해 조건부확률을 계산
  • 기댓값

기댓값

 기댓값은 확률변수와 그에 해당하는 확률질량(또는 밀도)함수의곱을 합한 것을 말한다. 이는 다른 통계적 범함수(분산, 첨도,공분산 등 통계량)를 계산하는데 사용된다.

  • 조건부기댓값

 조건부 기댓값은 기댓값을 계산할때 확률변수 P(x)를 조건부확률식으로 계산 값을 말하며, 머신러닝의 확률분포를 추정하여 계산할 때 사용된다.

다만, 머신러닝의 많은 문제들은 확률분포를 명시적으로 모를때가 많고, 데이터를 이용하여 기대값을 계산하기 위해서는 몬테카를로 샘플링(Monte-Carlo Sampling) 방법을 사용하게 된다.

 

 

3. 몬테카를로 샘플링 : Monte-Carlo Sampling

 몬테카를로 샘플링은 독립추출이 보장될때, 대수의 법칙(law of large number)에의해 수렴성을 보장하며 적분값을 손쉽게 구할 수 없는 확률밀도함수에 대해서도 근사한 결과값을 계산해낼 수 있기 때문에 머신러닝에서 다양하게 응용되고 있는 방법이다.

 

 

 

참고자료 : 네이버부스트캠프 AI Tech 강의자료

728x90
반응형