transformer 4

[멀티모달 기초논문] VIT - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

https://arxiv.org/abs/2010.11929 An Image is Worth 16x16 Words: Transformers for Image Recognition at ScaleWhile the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to reparxiv.org 1. Abstract 기존 트랜스포머는 자연어..

[딥러닝, 논문리뷰] Attention Is All You Need 3 - Residual Connection, 나머지 내용들

https://arxiv.org/abs/1706.03762  Attention Is All You NeedThe dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a newarxiv.org 이번 시간은 트랜스포머 메커니즘 마지막 단계인 Residual Connection에 대해서 정리하면서 트랜스포머 이론편은 마무리 하도..

[딥러닝, 논문리뷰] GPT-1 Improving Language Understandingby Generative Pre-Training

https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf 1. Abstract 기존 NLU(자연어의 이해)에는 문장의 논리적 관계를 분석하는 "문장간의 함의 관계", QA태스크, 의미적 유사성 평가, 문서 분류 등의 다양한 태스크가 포함되는데, 기존 언어모델에서 훈련에 사용되는 라벨이 붙은 데이터는 현실적으로 수집 후 정제하는 과정에 시간과 비용이 많으 들게 되는 단점이 있고, 또한 라벨이 없는 대규모의 텍스트 코퍼스는 많이 존재하는 것이 현재 처해진 상황이라고 표현  그러므로 기존의 지도 학습 방식의 한계를 극복하기 어려운 문제에 봉착하게 되는데,  그에 따라서 제안 된 본 논문에서는 여러 방..

[딥러닝, 논문리뷰] CLIP -Learning Transferable Visual Models From Natural Language Supervision - 이론 1편

https://arxiv.org/abs/2103.00020 Learning Transferable Visual Models From Natural Language SupervisionState-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual coarxiv.org CLIP Githubhttps://github.com/..