으죨

  • 홈
  • 태그
  • 방명록

r1-zero 1

[딥러닝, 논문리뷰] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning - 딥식이

https://arxiv.org/abs/2501.12948 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement LearningWe introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrates remarkable reasoninarxiv.org 소스 링크  https://hu..

딥러닝, 논문 리뷰 2025.02.04
이전
1
다음
더보기
프로필사진

으죨

영업, 데이터분석, ML/DL 공부한 내용 정리하는 블로그

  • 분류 전체보기 (40)
    • 머신러닝 교과서_파이토치편 (3)
    • 딥러닝, 논문 리뷰 (33)
    • 프로젝트 (1)
    • 딥러닝 기초 수학 (1)
    • 멀티모달_프로젝트 (2)
    • CS기초 (0)

Tag

임베딩, deep learning, DeepLearning, 논문리뷰, 퍼셉트론, 멀티모달, ViT, BCE, transformer, 자연어처리, encoder, llm, MSE, Attention, 최적화, 딥러닝, 손실함수, Seq2Seq, nlp, Deep Dive,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2026/03   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © AXZ Corp All rights reserved.

티스토리툴바