Dropout1 [CS231n] Lecture 7 | Training Neural Networks II 지난 강의를 돌이켜보면 Neural network에서 가장 중요한 것은 바로 최적화 문제였다. vanilla gradient descent를 하게되면 위 식처럼 weight를 초기화 해준다. 여기서 batch단위로 끊어서 한게 SGD이다. 미니 배치 안에서 데이터 loss를 계산하고, 그리고 gradient의 반대 방향을 이용해서 파라미터 벡터를 업데이트 시켜준다. 그런데 SGD의 문제점이 있다. 손실함수의 모양에 따라 영향을 많이 받는다. 위 그림처럼 타원 모양을 갖게 되면 저 빨간색 점에서 스마일표시까지 어떻게 찾아가게 될까? 위의 경우 loss가 수직 방향의 가중치 변화에 훨씬 더 민감하게 반응하여서 빨간색 선처럼 gradient의 방향이 매우 크게 튀면.. 2020. 11. 28. 이전 1 다음