그냥 단순하게 생각했었다... 정말로 그렇게 생각했었다... 그런데... 그냥 왜 굳이? `MSE` 로도 충분히 손실 값을 구할 수 있지 않을까? 라는 물음이 시작되었는데. 이러한 갈증을 해결 하기 위해서, 단순 연산 값에 대입시키면서 왜 분류 문제에는 `BCE` (이진)를 사용하는지에 대해서 정리를 해 보았다.분류는 어떻게 보면 확률분포그렇다! 우리가 활성화 함수를 분석하거나 번역 모델을 설계할 때도, 입력값이 정답에 얼마나 가까운지를 명확한 수치로 알기는 어렵다. 그래서 대부분의 경우, 입력값이 정답에 가까울 확률을 예측하는 방식으로 설계하게 된다.상황을 가정해서 생각해보자.\(sigmoid\) 함수를 통과한 입력 값이 0.6일 경우를 생각해보자$$f(y) =\begin{cases}1, & \tex..