DeepLearning 3

[딥러닝] Word2Vec 논문 리뷰 전 분석 - 1

Word2Vec1. 희소 & 밀집 표현대표적인 기법 → 원-핫 인코딩대상이 되는 범주형 변수는 해당 변수 범주 개수(n)만큼의 신규 변수로 쪼개어짐고차원 행렬 형태로 변환되며 고유 이진 벡터로 표현됨으로 범주간 구분을 명확히함, 그러나 각 단어 벡터간 유의미한 유사성을 표현할 수 없는 단점이 있음왜 희소 표현인지?작은 단어의 집합 예제를 통해 표현예제단어 집합: ["I", "love", "NLP", "ChatGPT", "AI"] 이 있다고 가정할 때 이것을 원-핫 벡터로 표현한다면 단어원-핫 벡터I[1, 0, 0, 0, 0]love[0, 1, 0, 0, 0]NLP[0, 0, 1, 0, 0]ChatGPT[0, 0, 0, 1, 0]AI[0, 0, 0, 0, 1] 각 벡터는 5차원이며, I가 해당되는 단어만 ..

[머신러닝 교과서] 2. 분류를 위한 머신러닝 기법들 - 2 (트리구조, KNN)

이전 시간 이후에 남은 분류기들🌲 결정 트리일련의 질문에 대한 결정을 통해 데이터를 분해하는 모델(스무고개라고 생각하면 쉽다)직관적 그림설명루트 노드(Root Node): 트리의 시작점내부 노드(Internal Node): 특정 특성(feature)에 따라 데이터를 분할잎 노드(Leaf Node): 최종 예측값(클래스 레이블 또는 회귀값)을 나타냄 (그래프에는 없지만 최종 값이라고 보면 된다)가지(Branch): 노드 간의 연결 경로결정 트리의 작동원리특성 선택 (Feature Selection):가장 잘 데이터를 분할할 수 있는 최적의 특성을 선택주로 정보 이득(Information Gain), **지니 계수(Gini Index)**를 사용데이터 분할 (Splitting):선택된 특성에 따라 데이터를..

[머신러닝 교과서] 2. 분류를 위한 머신러닝 기법들 - 1 (Logistic Regression, SVM)

시작하면서우선 교본 안에 서술된 여러 머신러닝 기법들 중에는 아달린 알고리즘(경사하강법을 이용한)이 존재하나, 이미 이전에 서술했던 내용이기에 생략하고 로지스틱 회귀분석 - 결정 트리까지 정리하겠다.로지스틱 회귀분석로지스틱 회귀분석을 통한 클래스 확률 모델링기존 퍼셉트론을 통한 훈련은 분류 알고리즘에 적합하지만 동시에 선형적으로 구분되지 않을 때, 학습 수렴을 할 수 없는 단점이 있음(XOR 게이트), 그렇기에 간단한 이진분류를 더욱 더 강력하게 학습이 가능한 로지스틱 회귀에 대해서 정리하겠다.1. 정의이진분류 문제를 해결하기 위한 통계적 모델 중 하나두 가지 범주(\(Yes\) \(Or\) \(No\)) 중 하나로 분류예) : 스팸 분류, 환자 질병 예측 등에 사용2. 로지스틱 회귀의 핵심2-1. 선형..