'r1-zero' 태그의 글 목록

r1-zero 1

[딥러닝, 논문리뷰] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning - 딥식이

https://arxiv.org/abs/2501.12948 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement LearningWe introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrates remarkable reasoninarxiv.org 소스 링크 https://hu..

딥러닝, 논문 리뷰 2025.02.04

으죨

영업, 데이터분석, ML/DL 공부한 내용 정리하는 블로그

임베딩, deep learning, DeepLearning, 논문리뷰, 퍼셉트론, 멀티모달, ViT, BCE, transformer, 자연어처리, encoder, llm, MSE, Attention, 최적화, 딥러닝, 손실함수, Seq2Seq, nlp, Deep Dive,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

r1-zero 1

티스토리툴바