지난 시간에 이어 옵티마이저의 종류들과 성능들에 대해서 조금 더 딥하게 들어가보려고 한다. 대표 기법들인 Momentum, Adagrad, RMSProp, Adam, NAG 까지만 정리하려고 한다.기존 GD, SGD의 문제점 수렴 속도 문제두 방법 모두 수렴 속도가 느리거나 극단적으로 빠르지만, 안정성을 가지지 못하는 경우가 많습니다.`GD`는 전체 데이터셋에 대해 매 번 계산을 하여 파라미터를 업데이트를 하여 안정성을 가지지만 학습 속도가 매우 느린 단점이 있고, `SGD`는 한 개 밑 하위의 최소 단위의 데이터만을 이용해 파라미터를 업데이트를 하기에 속도는 빠르지만 학습 안정성이 좋지 않은 단점이 있습니다.학습률 설정 문제`GD`, `SGD` 두 방법 모두 극단적인 학습 방법으로 인해 학습률 지정..