KL Divergence는 쉽게 말해 '두 분포 사이의 거리'를 말한다. KL Divergence을 이해하기 전에 Cross Entropy (CE)를 먼저 간단하게 정리해보자. 1. Cross Entropy 1-1) Binary Cross Entropy binary의 경우는 출력값이 0 또는 1의 두 가지로 있을 수 있다. 예를 들어, 어떤 데이터(키, 몸무게 등)에서 남자 또는 여자로 분류하는 출력을 얻기 위해서는 결과를 0과 1로 표현할 수 있게 된다. target 값을 y, 예측값이 y^이라고 했을때 Binary Cross Entropy는 위와 같은 수식이 된다. 이때, y와 y^은 경우의 수로 y = 0 또는 1, y^ = 0 또는 1이며, 조합의 수는 4가지 경우가 된다. 1-2) Cross E..