Deep Dive 2

[딥러닝] 최적화와 경사하강법 Deep Dive(배치 경사하강법, 확률적 경사하강법) - 1

최적화에 대한 개념딥러닝 모델을 통한 학습으로 우리는 옵티마이저를 자주 보게 되는데(Optimization), 훈련을 처음 시작하면서 순전파 → 활성화 함수 → 출력층 → 역전파를 진행하는 과정에서 예측값과 실제값(라벨)의 차이를 통해 손실 함수를 구하게 되는데, 이 차이를 최소화 하기 위한 방법입니다. 방법 중 가장 유명하면서도 자주 쓰이는 방법이 기울기 조정이라는 것인데, 이는 우리가 고등학교 때 굉장히 괴롭힘 받았던 미분과도 굉장히 밀접한 연관이 있습니다(아예 그냥 미분이 중요함) 그렇기 때문에, 우리는 미분과 기울기에 대해서 명확히 알 필요가 있다고 생각합니다.기울기란 무엇일까?기울기는 변화율 즉 순간변화율을 나타내는 것인데, 특히 이런 순간적인 변화율 자체는 미분을 통해 계산하고 변화하는 것을 ..

[딥러닝] Attention Machanism 밑바닥부터 들어가기 - Deep Dive 2탄

이전 시간에 내용을 정리하던 와중에 갑자기 생각난게 있다. Q, K, V 로직중에서 Q랑 K는 그럼 같은 얘기 아닌가?그리고 어텐션 스코어는 왜 저렇게 계산하는걸까?   아무리 찾아봐도 내가 이해가 안돼서 이해가 될 때까지 계속 정리하려고 한다.  처음 찾아 본 \(Query\) 와 \(Key\)의 값은 각각 "입력 단어를 임베딩한 값", "입력한 단어의 문맥적 특징을 통해 추출된 임베딩 값" 이 두가지로 나뉠 수 있다. 문맥적 특징이 뭘까? 1. 기본적으로 \(Query\) 값은 입력된 단어의 임베딩 값에 가중치 행렬 ( \(W_Q\) ) 를 곱해 생성된 값이라고 보면 됩니다.2. 이 변환을 통해 메커니즘은 특정 단어의 "관심사"를 학습할 수 있습니다.  여기서 잠깐  결국 어텐션이 탄생한 이유 자체로..