欲速不達

일을 급히 하고자 서두르면 도리어 이루지 못한다.

Fantastic AI, Fantastic World
728x90
반응형

최적화 3

[DL Basic] Optimization 최적화 - 3 : Regularization

1. Regularization 1-1) Early Stopping Early stopping는 앞선 최적화 - 1에서 언급한 Generalization 문제에서 Generalization gap에 대한 방법이다. iteration이 커질수록 test error는 줄어들다가 어느 지점에서 다시 상승하는 모양을 보일 수 있고, 이렇게 되면 gap이 다시 커지는 걸 볼 수 있다. 이때 gap을 유지하기 위해서 iteration을 멈추는 방법이 Early Stopping이다. 1-2) Parameter Norm Penalty Parameter Norm Penalty는 목적함수가 되는 loss function에 parameter norm penalty를 추가하여 모델의 크기 등을 제한하는 것에서 나오는 아이디어..

[DL Basic] Optimization 최적화 - 2 : Gradient Descent

1. Gradient Descent Method 1) Stochastic Gradient Descent : SGD vs Mini-batch Gradient Descent vs Batch Gradient Descent SGD는 확률적으로 gradient를 업데이트하는 방식이다. 이는 데이터 하나에 대해 gradient를 업데이트하는 방법이고, 모든 데이터에 대해서 업데이트하는 기존의 Gradient Descent 방법보다는 모델의 Generalization에서 좋은 성능을 보여주었다. 하지만 실제로 모델을 학습할때는 resource적인 측면에서도 효율적이어야하는데 SGD는 모든 데이터에서 하나하나의 확률적인 업데이트를 실행하기 때문에 비효율적이었고, 이에 batch를 추출하여 업데이트하는 방법이 등장하였다..

[DL Basic] Optimization 최적화 - 1 : Basic

1. Optimization의 중요성 Optimiaztion(최적화)는 머신러닝 관점에서 몇 가지 논점에서 바라 볼 수 있다. 1) 일반화 (Generalization) 2) 과대적합 vs 과소적합 (Ovefitting vs Underfitting) 3) 교차검증 (Cross Validation) 4) 편향-분산 트레이드오프 (Bias-Variance Tradeoff) 5) 부트스트래핑 (Bootstrapping) 6) 배깅과 부스팅 (Bagginf and Boosting) 1-1) 일반화 (Generalization) Generalization라고 하면 일반적으로 train error는 학습과정에서 계속해서 작아짐에 따라, test error도 줄어들었을 때 학습이 잘 되었으며, Generalizati..

728x90
반응형