nlp 7

[개인 프로젝트] LLM을 활용한 서비스 구축 사례 - 1

시작하면서 여태 논문을 통해 공부하면서, 과연 나는 딥러닝을 통해서 어떠한 서비스를 만들 수 있을까 많은 시간 고민하며 지내왔습니다. 그러면서 최근 "쿠팡", "마켓컬리" 등 온라인커머스 시장을 알게 되고, 그에 따른 시장규모에 대한 간단한 조사를 실시하였습니다.  상기 차트를 보면 알 수 있지만, 생각보다 시장 비용이 크게 증가한 것을 알 수 있습니다. 개인적인 추론으로는, 과거에는 짬나는 시간에 가족들과 함께 마트에 가서 장을 보며 물품을 구매하는 '오프라인 구매'가 주류였지만, 코로나 사태 이후로는 소비 심리 자체가 오프라인에서 온라인 구매로 전환되기 시작한 것으로 보입니다. 왜 그런것일까요?    그 원천은 새벽배송이라고 볼 수 있습니다. 대표적인 기업으로는 "쿠팡", "컬리", "SSG" 등 굴..

프로젝트 2025.03.11

[딥러닝, 논문리뷰] Attention Is All You Need 3 - Residual Connection, 나머지 내용들

https://arxiv.org/abs/1706.03762  Attention Is All You NeedThe dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a newarxiv.org 이번 시간은 트랜스포머 메커니즘 마지막 단계인 Residual Connection에 대해서 정리하면서 트랜스포머 이론편은 마무리 하도..

[딥러닝, 논문리뷰] CRAW4LLM: Efficient Web Crawling for LLM Pretraining

https://arxiv.org/abs/2502.13347v1 Craw4LLM: Efficient Web Crawling for LLM PretrainingWeb crawl is a main source of large language models' (LLMs) pretraining data, but the majority of crawled web pages are discarded in pretraining due to low data quality. This paper presents Crawl4LLM, an efficient web crawling method that explores the webarxiv.org 1. AbstractCraw4LLM은 대형 언어 모델(LLM)의 사전 훈련을 위한 ..

[딥러닝, 논문리뷰] GPT-2 Language Models are Unsupervised Multitask Learners

https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf  https://cheorish.tistory.com/28 [딥러닝, 논문리뷰] GPT-1 Improving Language Understandingby Generative Pre-Traininghttps://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf 1. Abstract 기존 NLU(자연어의 이해)에는 문장의 논리적 관계를 분석하는 "문장간의 함의 관계", QA태스크, 의미적 유사성 평cheorish.tistory..

[딥러닝, 논문리뷰] GPT-1 Improving Language Understandingby Generative Pre-Training

https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf 1. Abstract 기존 NLU(자연어의 이해)에는 문장의 논리적 관계를 분석하는 "문장간의 함의 관계", QA태스크, 의미적 유사성 평가, 문서 분류 등의 다양한 태스크가 포함되는데, 기존 언어모델에서 훈련에 사용되는 라벨이 붙은 데이터는 현실적으로 수집 후 정제하는 과정에 시간과 비용이 많으 들게 되는 단점이 있고, 또한 라벨이 없는 대규모의 텍스트 코퍼스는 많이 존재하는 것이 현재 처해진 상황이라고 표현  그러므로 기존의 지도 학습 방식의 한계를 극복하기 어려운 문제에 봉착하게 되는데,  그에 따라서 제안 된 본 논문에서는 여러 방..

[딥러닝, 논문리뷰] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning - 딥식이

https://arxiv.org/abs/2501.12948 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement LearningWe introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrates remarkable reasoninarxiv.org 소스 링크  https://hu..

[딥러닝 논문리뷰] Seq2Seq 메커니즘 Sequence - 2

https://arxiv.org/abs/1409.3215 Sequence to Sequence Learning with Neural NetworksDeep Neural Networks (DNNs) are powerful models that have achieved excellent performance on difficult learning tasks. Although DNNs work well whenever large labeled training sets are available, they cannot be used to map sequences to sequences. In this paparxiv.org 1. Abstract기존 RNN, LSTM에서 고질적으로 발생하였던 장기의존성을 해결하기 ..