1. Gradient Descent Method 1) Stochastic Gradient Descent : SGD vs Mini-batch Gradient Descent vs Batch Gradient Descent SGD는 확률적으로 gradient를 업데이트하는 방식이다. 이는 데이터 하나에 대해 gradient를 업데이트하는 방법이고, 모든 데이터에 대해서 업데이트하는 기존의 Gradient Descent 방법보다는 모델의 Generalization에서 좋은 성능을 보여주었다. 하지만 실제로 모델을 학습할때는 resource적인 측면에서도 효율적이어야하는데 SGD는 모든 데이터에서 하나하나의 확률적인 업데이트를 실행하기 때문에 비효율적이었고, 이에 batch를 추출하여 업데이트하는 방법이 등장하였다..