딥러닝, 논문 리뷰

[딥러닝, 논문리뷰] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning - 딥식이

cheorish 2025. 2. 4. 07:27

 

 

https://arxiv.org/abs/2501.12948
 

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

We introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrates remarkable reasonin

arxiv.org

 

소스 링크 

 

https://huggingface.co/deepseek-ai/DeepSeek-R1

 

deepseek-ai/DeepSeek-R1 · Hugging Face

DeepSeek-R1 Paper Link👁️ 1. Introduction We introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a prel

huggingface.co

 

위 논문을 리뷰하게 된 계기 

 

  1. GPU 황자 쩬슨 황을 무릎 꿇게 만듬 
  2. GPT o1 시리즈를 압도하는 성능 
  3. 보다 적은 컴퓨팅으로 제작 
  4. 상남자스럽게 오픈쏘스로 공개하였기 때문

Abstract 

 

대규모 언어 모델의 추론 능력을 강화하기 위한 강화 학습(RL)을 활용한 첫 번째 제네레이션 모델인 DeepSeek-R1-Zero와 DeepSeek-R1을 소개하려고 합니다.

 

우선, DeepSeek-R1-Zero 같은 경우에는 사전 감독 학습(SFT)없이 대규모 RL을 통해 훈련 되어, 좋은 성능을 보여주지만,

가독성 저하와 언어 혼합 같은 크리티컬한 문제가 생긴다. 

 

이를 해결하기 위해서, 다단계 훈련과 RL 이전에 초기 데이터를 도입한 DeepSeek-R1을 개발하였음,

 

그렇게 DeepSeek-R1은 추론 작업에서 OpenAI-o1-1217과 유사한 성능을 달성하였으며, 연구 커뮤니티의 발전을 위해 DeepSeek-R1-Zero, DeepSeek-R1, 그리고 Qwen과 Llama를 기반으로 한 1.5B부터 70B까지의 6가지 밀집 모델을 오픈 소스로 공개함

압도적으로 o1 모델 성능을 능가하는걸 보여줌

 

Introduction

대규모 언어 모델(LLM)의 발전과 함께, 이러한 모델들이 인공지능 일반화(AGI)에 점점 가까워지고 있음을 강조합니다. 특히, 사후 훈련(post-training)이 추론 작업의 정확도를 높이고, 사회적 가치와 사용자 선호도에 맞게 모델을 조정하는 데 중요한 역할을 한다고 언급함 

 

OpenAI의 o1 시리즈 모델은 추론 시 체인 오브 소트(Chain-of-Thought) 방식을 활용하여 수학, 코딩, 과학적 추론 등 다양한 분야에서 성능을 향상시켰습니다. 그러나 테스트 시 스케일링의 효과적인 적용은 여전히 연구 과제로 남아 있습니다. 이러한 문제를 해결하기 위해, 이전 연구들은 프로세스 기반 보상 모델, 강화 학습, 몬테카를로 트리 탐색(Monte Carlo Tree Search), 빔 서치(Beam Search) 등의 방법을 탐구해왔지만, 아직 OpenAI의 o1 시리즈와 동등한 일반 추론 성능을 달성하지는 못했습니다.

 

이 논문에서는 순수한 강화 학습(RL)을 통해 언어 모델의 추론 능력을 향상시키는 첫 번째 시도로서, 감독 학습 데이터 없이 RL을 통해 모델의 자기 진화를 탐구합니다. 구체적으로는, DeepSeek-V3-Base를 기본 모델로 사용하고, GRPO(Group Relative Policy Optimization)라는 RL 프레임워크를 적용하여 추론 성능을 개선합니다. 이 접근 방식을 통해, LLM이 감독 데이터 없이도 추론 능력을 개발할 수 있는 잠재력을 탐구하고자 합니다.

 

학습 방법 소개 

 

1. 사후 학습 

  • 적은 계산 자원을 사용하면서도 정확도를 높음 
  • 사용자 선호도에 맞춤 대답 가능 

2. DeepSeek-R1-Zero 

  • DeepSeek-V3-Base을 기반으로 강화학습(RL)만을 사용 
  • 기존의 정통 SFT방식에서의 PPO 방식이 아닌 GRPO방식을 사용하여(RL) 학습하여 성능을 향상 
  • 그러나, 가독성 저하 문제와 언어의 혼합이 발생되는 큰 단점이 발생하게 됨 

3. DeepSeek-R1

      • 기존 DeepSeek-R1-Zero의 문제를 해결하기 위해 하기 방법들을 사용 
      • 소량의 초기 데이터다단계 학습 파이프라인으로 학습함
        1. Cold-start 데이터 수집 및 SFT 수행
          • 초기 데이터를 수 천개를 수집하여 SFT 훈련을 진행
          • DeepSeek-V3-Base 모델을 기본적인 언어 구조와 추론 능력을 갖춘 상태로 미세 조정
          • Zero에서 발생하였던 가독성 저하 문제, 언어 혼합 문제를 줄임
        2. Reasoning-oriented RL 적용
          • GRPO 방식의 강화학습을 그대로 적용,
          • 모델이 더 나은 답변을 생성하도록 훈련 
        3. Rejection Sampling을 통한 추가 SFT 데이터 생성
          • 거절 샘플링(Rejection Sampling)을 통해 피드백 및 필터링 

또한, DeepSeek-R1으로 기존 Zero 모델의 한계를 해결하고, DeepSeek의 개선을 위해 여러 방법을 동원했으며, 더 나아가 증류버전의 모델(경량화, distillation)을 수행 Qwen2.5-32B 모델을 사용하여 DeepSeek-R1에서 추론 능력을 압축하여 작은 모델로 이전

 

경량화 결론

  • Distilled Qwen 및 Llama 시리즈 모델을 오픈소스로 공개
  • Distilled 14B 모델은 SOTA(State-of-the-Art)인 QwQ-32B-Preview보다 훨씬 뛰어난 성능을 달성
  • Distilled 32B 및 70B 모델은 추론 벤치마크에서 Dense 모델 중 새로운 최고 기록(New Record) 수립

🔑 여기서 RL(강화학습)과 그 하위의 방법들(PPO, GRPO) 방식이란?

강화학습은 스스로 시도하고 결과에 따른 평가를 하는 기반의 학습 방법으로서, 에이전트가 환경에 따라 상호작용하며, 보상을 최대화 하는 방식으로 학습하는 방식인데 간단하게 생각해서 모델이 최적의 경로를 탐색하기 위해 스스로 생각하고 결정하며 그에 따른 보상과 피드백을 통해 학습하는 방법이라고 생각하면 쉽다. 

간략한 개념 정보

① 에이전트 (Agent)

  • 학습을 수행하는 주체(예: 게임 플레이어, 로봇, LLM 모델)
  • 목표는 보상을 최대화하는 최적의 행동을 학습하는 것

② 환경 (Environment)

  • 에이전트가 행동을 수행하는 공간(예: 체스판, 로봇의 물리적 환경, 언어 모델의 대화 환경)
  • 에이전트의 행동에 따라 상태가 변화하며 보상을 제공

③ 상태 (State,  \(S\) )

  • 환경의 현재 상태를 나타내는 변수 (예: 체스판의 배치, 로봇의 위치, 현재 대화 내용)
  • 상태  \(S_t\) 에서 에이전트가 행동을 선택함

④ 행동 (Action,  \(A\) )

  • 에이전트가 수행할 수 있는 행동의 집합 (예: 체스에서 말을 움직이기, 로봇이 팔을 움직이기, LLM이 답변 생성하기)
  • 에이전트는 현재 상태  \(S_t\) 에서 특정 행동  \(A_t\) 를 선택

⑤ 보상 (Reward,  \(R\) )

  • 특정 행동을 수행한 결과, 환경이 에이전트에게 제공하는 피드백
  • 목표는 장기적으로 보상을 최대화하는 행동을 학습하는 것
  • 예: 체스에서 좋은 수를 두면 +1 보상, 나쁜 수를 두면 -1 보상

⑥ 정책 (Policy,  \(pi\) )

  • 주어진 상태에서 행동을 선택하는 전략
  • 확률적 정책:  \(pi(a|s)\) 는 상태  \(s\) 에서 행동  \(a\) 를 선택할 확률을 의미
  • 목표는 최적의 정책  \(pi^*\) 를 학습하는 것

게임과 비슷한 로직이라고 생각하면 된다, 더 자세하고 깊은 내용은 추후에 강화학습 관련하여 정리할 예정이다, 

그리고 우리가 집중해야 할 부분은 여기서 PPO와 GRPO의 학습 방식이 조금은 갈리게 된다

 

절대적 보상, 상대적 보상, 그리고 가치모델과 그룹 모델

PPO, GRPO의 구조

 

 

🔑 PPO의 구조 

 

강화학습에서 가장 많이 사용되는 방법(RLHF 방식에서 주로 사용, 다음은 트랜스포머와 RLHF 방식을 차차 정리할 예정입니다) 정책 업데이트와 보상 계산에 있어, 다음과 같은 특징을 통해 학습 

 

  • 입력을 통해 현재 상태를 답변을 받은 에이전트가 그에 따른 행동이 얼마나 좋은지 평가하며, 보상을 부여함
  • 답변의 성능을 기존의 행동(정책) → 기준이 되는 모델과 현재 답변을 보낸 모델을 비교해서 얼마나 더 나은지를 평가함
    • 좋아진 경우 : 현재 답변이 기존 답변보다 더 높은 점수를 받음
    • 나빠진 경우: 점수가 낮아져 보상을 줄임
  • 답변 개선 방향을 설정하기 (정책 업데이트) [가치모델]
    • 현재 행동이 얼마나 나은지를 기반으로 정책을 조정함
    • 그렇지만, 행동이 너무 급격하게 바뀌지 않게 하기 위해 변화의 범위를 규제하기도 함(Clipping)

🔑  결론 : 안정적이고 점진적인 개선에 초점을 맞추는 방식, 그러나 절대적인 보상기준의 한계가 명확함 (단순히 좋다-나쁘다로 점수를 매기는 경향이 있음)

🚀 GRPO의 구조 

 

기존의 PPO 방식에서 가치모델 방식을 제외하고 그룹 모델 내 상대적 보상을 활용해서 정책을 업데이트 하는 방식 

 

  • 입력을 통해 현재 상태를 답변 받은 에이전트가 그에 따른 행동을 그룹화 하고 평가를 받으며, 상대적인 평가를 수행 
  • 각 그룹화 된 행동값에 대한 보상모델이 답변에 따른 점수를 매기고, 상대적 우수성을 평가하기 위해 연산을 수행(평균, 표준편차, 그에 따른 상대적 점수 계산) → 그에 따라 좋은 답변을 선택 하고 학습함 

🔑  결론 : 상대적인 평가를 통해 학습의 방향을 설정 하고, 다양한 패턴을 학습하며 효율적인 방식 


Contributions

Post-Training: Large-Scale Reinforcement Learning on the Base Model

 

1. DeepSeek-R1-Zero: SFT 없이 순수한 RL 적용

 

1.1 핵심 접근 방식

  • DeepSeek-R1-Zero는 지도 학습(SFT) 없이 순수한 강화 학습을 통해 훈련되었습니다.
  • SFT를 사용하지 않은 이유는, 모델이 스스로 체인 오브 소트(Chain of Thought, CoT)를 학습하도록 유도하기 위함입니다.
  • 이를 통해 복잡한 문제를 해결하기 위한 사고 과정을 모델이 탐구할 수 있게 됩니다.

👻 CoT 체인 오브 소트란?

연쇄 추론의 약어로서, LLM이 단순 정답 예측이 아닌, 논리적 사고 과정을 따라가며, 답을 생성하도록 돕는 방법 

예제, 

질문:
“한 상자에 사과가 5개 들어 있습니다. 3개의 상자에는 총 몇 개의 사과가 있을까요?”

일반 CoT (짧은 설명)
→ “각 상자에 5개의 사과가 있습니다. 3개의 상자가 있으므로, 총 사과의 개수는 5 × 3 = 15개입니다.”

긴 문장의 CoT
→ “먼저, 문제에서 한 상자에는 5개의 사과가 있다고 했습니다. 그리고 우리는 총 3개의 상자가 있다고 가정합니다.

각 상자에는 동일한 개수의 사과가 들어 있으므로, 우리는 이를 곱셈 연산을 사용하여 계산할 수 있습니다.
즉, 한 상자에 들어 있는 사과의 개수(5개)와 상자의 개수(3개)를 곱해주면 됩니다.
따라서, 5 × 3 = 15가 되며, 정답은 15개입니다.”

 

2. DeepSeek-R1: 다단계 학습 파이프라인

 

파이프라인 구성

 

1. 향상된 추론 패턴 탐구

2. 인간 선호도에 맞는 모델 학습

 

2.2 파이프라인의 구조

 

2단계 강화 학습(RL):

 

첫 번째 RL 단계:

  • 모델이 더 나은 추론 패턴을 학습하도록 강화 학습 적용.
  • GRPO(Group Relative Policy Optimization)를 활용하여 효율성을 높임.

두 번째 RL 단계:

  • 모델의 출력을 인간 선호도와 일치시키기 위해 추가로 강화 학습을 수행.

2단계 지도 학습(SFT):

 

첫 번째 SFT 단계:

  • Cold-start 데이터를 사용하여 초기 모델에 기본적인 추론 및 비추론 능력을 학습.

두 번째 SFT 단계:

  • Rejection Sampling을 통해 고품질 데이터를 선별하여 추가 학습.
  • 추론 데이터와 비추론 데이터를 결합하여, 모델의 전반적인 능력을 강화.

Distillation: Smaller Models Can Be Powerful Too

 

대형 모델이 학습한 추론 패턴을 작은 모델에 효과적으로 전이하여, RL을 직접 적용하는 것보다 더 강력한 소형 모델을 만들 수 있다는 것도 설명 

 

1.1 대형 모델의 추론 패턴을 증류(Distillation)

  • 연구 결과, 소형 모델에서 RL을 직접 수행하는 것보다, 대형 모델의 추론 패턴을 증류하는 것이 더 효과적임을 입증했습니다.
  • 즉, 대형 모델이 강화 학습을 통해 발견한 논리적 사고 과정(Reasoning Patterns)을 작은 모델로 이전하면, 작은 모델이 스스로 학습하는 것보다 더 좋은 성능을 낼 수 있다는 것을 설명 

소형 모델 성능 평가 

모델 AIME 2024 MATH-500 LiveCodeBench 비고
DeepSeek-R1-Distill-Qwen-7B 55.5% -   QwQ-32B-Preview보다 우수
DeepSeek-R1-Distill-Qwen-32B 72.6% 94.3% 57.2% 기존 오픈소스 모델보다 뛰어남, o1-mini와 유사

 

더 이상의 자세한 설명은 생략

 


Approach 

DeepSeek-R1의 접근 방식은 DeepSeek-R1-Zero의 한계를 해결하고, 모델의 추론 능력을 향상시키기 위해 다단계 학습 프로세스를 설계한 내용입니다. 이를 통해 OpenAI o1-1217과 유사한 수준의 성능을 달성하였으며, 기존의 강화 학습 알고리즘(PPO)에서 발전된 GRPO를 적용하여 효율성과 성능을 극대화했습니다

 

이 연구에서 제안한 세 가지 핵심 모델

 

1️⃣ DeepSeek-R1-Zero순수한 RL 적용 (SFT 없이 학습)

2️⃣ DeepSeek-R1SFT + RL 조합 (긴 Chain-of-Thought(CoT) 데이터 활용)

3️⃣ Distillation (지식 증류)DeepSeek-R1의 추론 능력을 소형 모델로 이전

 

DeepSeek-R1-Zero: Reinforcement Learning on the Base Model

1. 강화 학습 알고리즘: GRPO(Group Relative Policy Optimization) 도입

 

강화 학습(RL)은 일반적으로 정책 모델(Policy Model)과 가치 모델(Value Model)을 함께 학습

하지만, 가치 모델을 학습하는 데 많은 비용이 들기 때문에, DeepSeek-R1-Zero에서는 GRPO를 활용하여 가치 모델을 제거하였음.

 

GRPO의 동작 방식 (DeepSeek-R1-Zero에서 적용된 강화 학습 로직)

 

1️⃣ 모델이 여러 개의 답변을 생성

  • 주어진 질문 \(q\)에 정책모델 \(\pi_{\theta}\)가 여러 개의 답변 모델(출력)을 생성 \(\{o_1, o_2, \dots, o_G\}\)
  • 이 답변들은 이전 정책 모델  \(\pi_{\theta_{\text{old}}}\) 을 기반으로 샘플링 됨 

2️⃣ 각 답변에 대한 보상 계산

  • 보상 모델(Reward Model)이 각 답변에 대한 점수(보상)\(\{r_1, r_2, \dots, r_G\}\) 를 부여
  • 하지만 기존 RL처럼 절대적 보상값을 사용하지 않고, 그룹 내 상대적 비교를 통해 보상을 정규화함

3️⃣ 그룹 내 상대적 보상(Advantage) 계산

  • 보상 \(A_i\)  값을 하기와 같은 식으로 계산
  • \(A_i = \frac{r_i - \text{mean}(\{r_1, r_2, \dots, r_G\})}{\text{std}(\{r_1, r_2, \dots, r_G\})}\)

4️⃣ 정책 업데이트

  • 기존 PPO처럼 KL-divergence(발산 패널티) 제약을 유지하면서, 새로운 정책  \(\pi_{\theta}\) 를 최적화합니다.
  • 목적함수 
    • \(J_{\text{GRPO}}(\theta) = \mathbb{E} \left[ \sum_{i=1}^{G} \min \left( r_t(\theta) A_i, \text{clip}(r_t(\theta), 1 - \epsilon, 1 + \epsilon) A_i \right) \right] - \beta D_{KL}(\pi_{\theta} || \pi_{\text{ref}})\)
    • 수식 설명 
      • \(r_t(\theta):\)현재 정책과 이전 정책 간의 확률 비율
      • \(A_i:\) 그룹 내 상대적 보상을 반영한 Advantage
      • \(\beta D_{KL}:\)기존 모델과 차이가 너무 커지는 것을 방지하는 KL 제약

😸 발산 패널티란?

 

정책 변화가 급격하지 않도록 안정적인 학습을 유도

모델이 기존 답변 패턴을 완전히 버리지 않고 점진적으로 개선할 수 있도록 조절

강화 학습이 불안정해지는 문제를 방지하고, 과적합을 방지하는 효과

 

수식 

 

\(D_{KL} (\pi_{\theta} || \pi_{\text{ref}}) = \sum_{o} \pi_{\theta}(o|q) \log \frac{\pi_{\theta}(o|q)}{\pi_{\text{ref}}(o|q)}\)

Reward Modeling

강화 학습에서는 모델이 최적의 행동(답변)을 학습하기 위해 보상을 극대화하는 방향으로 학습합니다.

하지만, LLM(대규모 언어 모델)은 단순한 숫자 보상이 아니라, 더 좋은 답변을 생성하는 방향으로 학습해야 합니다.

 

보상 모델의 구조

    • Accuracy rewards : 답변의 정답 여부 평가 
      • 수학 문제 또는 LeetCode 같은 코딩 문제처럼 정확한 정답이 존재하는 경우, 답변이 맞는지 틀렸는지를 평가하는 보상 모델을 사용
      • Format Reward Model : 답변이 논리적인 사고 과정을 포함하도록 유도
        • 단순히 정답만 출력하는 것이 아니라, 추론 과정(Thinking Process)을 명확하게 표현하도록 학습합니다.
        • 모델이 논리적 사고 과정을 표시하도록 특정 태그(<think> </think>)를 사용

Training Template

DeepSeek-R1-Zero를 훈련하기 위해, 기본 모델(Base Model)이 주어진 지시사항을 따를 수 있도록 단순한 템플릿(Training Template)을 설계

 

  1. 모델이 논리적 사고 과정을 먼저 생성한 이후에, 최종 답변을 제시하도록 유도 
  2. 특정한 문제 관련 해결 방식을 강요하지 않음 
  3. 강화 학습을 통해 자연스러운 발전 관찰 가능함 

훈련 템플릿 예시

<Question>  
3 + 5는 얼마인가요?

<Reasoning>  
먼저, 3과 5를 더하는 연산을 수행합니다.  
덧셈의 결과는 8입니다.  

<Answer>  
8

 

<Question>  
한 변의 길이가 4인 정사각형의 넓이를 구하세요.

<Reasoning>  
정사각형의 넓이는 한 변의 길이를 제곱하여 계산할 수 있습니다.  
따라서, 4 × 4 = 16이 됩니다.  

<Answer>  
16

 

<Question>  
Alice는 Bob보다 3살 많고, Bob은 10살입니다. Alice의 나이는 몇 살인가요?

<Reasoning>  
Bob의 나이는 10살입니다.  
Alice는 Bob보다 3살 많으므로, 10 + 3 = 13이 됩니다.  

<Answer>  
13

 

 

각각 단순 연산과 수학문제 사고 논제에 관련 문제이다 

 


 

Performance, Self-evolution Process and Aha Moment of DeepSeek-R1-Zero

다음은 DeepSeek-R1-Zero와 OpenAI의 o1-0912 모델을 다양한 추론 벤치마크에서 비교한 표이다.

다음은 학습이 진행됨에 따라 DeepSeek-R1-Zero의 AIME 정확도의 변화를 나타낸 그래프이다.

학습이 진행됨에 따라 DeepSeek-R1-Zero의 응답 길이의 변화를 나타내는 그래프

 

 


DeepSeek-R1: Reinforcement Learning with Cold Start

R1-Zero 모델의 실험적 성공을 바탕으로 다음 2가지 질문을 해결하기 위해 설계 됨 

 

1️⃣ 소량의 고품질 데이터(SFT)를 활용하면 강화 학습(RL) 성능을 더욱 향상시키거나, 학습 속도를 가속화할 수 있는가?

 

2️⃣ 추론 능력뿐만 아니라, 사용자 친화적인(Coherent & Clear) Chain-of-Thought(CoT)를 생성하고 일반적 능력을 갖춘 모델을 어떻게 학습할 수 있는가?

 

📌 Stage 1: Cold Start (소량의 고품질 데이터로 초기 SFT 수행)

  • DeepSeek-R1-Zero는 SFT 없이 순수한 RL로 학습되었지만, 초기 학습 불안정성이 발생했습니다.
  • 이를 해결하기 위해, 소량의 고품질 CoT 데이터(SFT 데이터)를 활용하여 모델을 미세 조정(Fine-tuning)한 후 RL을 적용했습니다.

✅ Cold Start Data Collection (초기 데이터 수집 방법)

DeepSeek-R1의 초기 데이터(SFT 데이터)는 다음 방법을 활용하여 수집되었음 

 

1️⃣ Few-shot prompting + Long CoT 예제 활용

  • 프롬프트에 긴 Chain-of-Thought(CoT) 예제를 포함하여 모델이 자연스럽게 논리적인 답변을 생성하도록 유도.

2️⃣ Reflection(반성) + Verification(검증)을 포함하는 프롬프팅

  • 모델이 자기 검토(Self-Verification)를 수행할 수 있도록, 보다 자세한 답변을 생성하도록 직접 프롬프트 제공.

3️⃣ DeepSeek-R1-Zero의 출력을 정제하여 활용

  • DeepSeek-R1-Zero의 결과 중 읽기 쉬운 형식(Readability 개선)이 적용된 데이터를 선별하여 Cold Start 데이터로 활용.

4️⃣ Human Annotators(사람 검토자)를 통한 후처리(Post-Processing)

  • 모델이 생성한 데이터 중 높은 품질의 데이터를 사람이 후처리하여 정제, 최종 Cold Start 데이터로 구성.

Reasoning-oriented Reinforcement Learning

추론 중심 강화학습

 

DeepSeek-R1는 Cold Start 데이터로 DeepSeek-V3-Base를 미세 조정(SFT)한 후,

DeepSeek-R1-Zero에서 사용했던 대규모 강화 학습(RL) 과정을 동일하게 적용하여 학습을 함 

 

이 단계에서는 코딩, 수학, 과학, 논리 추론(Logic Reasoning) 등 명확한 정답이 있는 과제들에서 모델의 추론 능력을 강화하는 것이 목표

 

강화 학습 과정에서 발생한 문제: 언어 혼합(Language Mixing) 현상

 

문제:

  • 강화 학습 과정에서 Chain-of-Thought(CoT) 출력에 여러 언어가 혼합되는 문제(Language Mixing)가 발생
  • 특히, RL 프롬프트가 다국어 데이터를 포함할 경우, 모델이 한 문장 내에서 여러 언어를 섞어 답변하는 경향이 나타남

 

해결 방법: 언어 일관성(Language Consistency) 보상 도입

 

언어 일관성(Language Consistency) 보상을 새롭게 추가하여, 특정 언어를 유지하도록 유도

CoT 내에서 목표 언어(Target Language)의 단어 비율을 계산하여 보상으로 사용

 

🎯 즉, 모델이 하나의 언어로 일관된 CoT를 작성하면 높은 보상을 받도록 강화 학습을 수행

 

 언어 일관성(Language Consistency) 보상의 적용 방식

 

보상 계산 방식:

  • CoT 내에서 목표 언어(Target Language)의 단어 비율을 계산하여 보상으로 반영
  • 예를 들어, 영어가 목표 언어일 경우, CoT에서 영어 단어가 차지하는 비율이 높을수록 높은 보상을 부여

 

최종 보상 함수 구성:

  • 추론 과제의 정답 여부(Accuracy Reward) + 언어 일관성(Language Consistency Reward)
  • 두 보상을 단순 합산하여 최종 보상(Final Reward)을 구성
  • \(R_{\text{final}} = R_{\text{accuracy}} + R_{\text{language consistency}}\)

Reasoning-oriented Reinforcement Learning

DeepSeek-R1에서는 모델의 논리적 추론 능력을 향상시키기 위해 강화 학습(RL)을 활용하였는데.

이를 Reasoning-Oriented Reinforcement Learning(추론 중심 강화 학습)이라고 하며,

기존의 RL 방식과는 달리 모델이 논리적인 사고 과정을 학습하도록 보상을 최적화하는 것이 핵심 목표

 

👻 차이점 

구분 기존 RL Reasoning-Oriented RL
목표 단순 보상을 최대화 하는 방향 최적화 논리적 추론 능력을 강화하는 방향을 최적화
보상 모델 답변의 질적 평가(선호도 기반) 논리적 사고 과정(CoT), 정답률, 언어 일관성 등 종합적 평가
학습 과정  단순 행동-보상 매칭 논리적 사고를 강화하는 방향으로 최적화 
적용 분야  RLHF 수학, 과학, 코딩, 논리 추론 등의 Reasoning-Intensive Tasks

Rejection Sampling and Supervised Fine-Tuning

RL이 수렴하면, 결과 체크포인트를 활용하여 후속 라운드를 위한 SFT 데이터를 수집한다. 주로 추론에 초점을 맞춘 초기 cold start ​​데이터와 달리, 이 단계는 다른 도메인의 데이터를 통합하여 쓰기, 롤플레잉, 기타 범용 task들에서 모델의 역량을 향상시킨다. 구체적으로, 아래에 설명된 대로 데이터를 생성하고 모델을 fine-tuning하였다.

 

추론 데이터 

  • RL 훈련중 기각 샘플링을 수행하면서, 추론 프롬프트를 통해 추론 경로를 통해 데이터를 생성 
기각 샘플링이란 단순하게 질의 따른 답변 중 좋은 데이터들만 필터링 하기 위해 에이전트를 통해 날아온 답변을 지속적으로 체크하는 방법이라고 생각하면 쉽다. 

 

비추론 데이터 

  • SFT 데이터셋을 재활용하여 글쓰기(Writing), 사실 기반 데이터(Factual Data), 자기 인식(Self-Cognition), 질의응답(QA) 등 다양한 태스크를 포함.
  • CoT(Chain-of-Thought)를 생성한 후, 최종 답변을 출력하는 방식으로 학습 진행.

즉, 기존 SFT 데이터를 활용하되, 논리적 사고 과정(CoT)을 추가하여 답변을 생성하는 구조로 학습을 진행

Reinforcement Learning for All Scenarios

DeepSeek-R1의 최종 RL 단계에서는 모델을 인간 선호도(Human Preferences)에 더욱 정렬(Alignment)시키기 위해 추가적인 강화 학습을 수행합니다.

 

이 단계의 목표는 모델의 유용성(Helpfulness), 무해성(Harmlessness), 그리고 추론 능력(Reasoning Capabilities)을 동시에 개선하는 것입니다.

Distillation: Empower Small Models with Reasoning Capability

소형 모델도 만들었어요~ 약 80만개의 데이터를 통해 Qwen, Llama 와 같은 모델들을 미세조정함 


Experiment

이미 본문 안에서 성능에 대한 내용들을 지속적으로 설명하였으니, 그에 따라서 실험 결과 지표들만 올리겠습니다.

 

 

 

 


Conclusion, Limitations, and Future Work

기존 RL 방식의 높은 비용 문제를 해결하기 위한 새로운 최적화 기법 연구.

더 적은 데이터와 계산 자원으로도 강력한 성능을 낼 수 있는 방법 탐색.

대형 모델의 추론 능력을 소형 모델로 효과적으로 이전하는 기술 개선.

다국어 환경에서도 더 자연스럽고 일관된 Chain-of-Thought(CoT) 생성 가능하도록 최적화

 

등 결국은 기존 성과가 좋았으나 더 노력해야겠다 등