딥러닝, 논문 리뷰

[딥러닝 논문리뷰] Seq2Seq 메커니즘 Sequence - 2

cheorish 2025. 1. 10. 16:32

 

 

https://arxiv.org/abs/1409.3215

 

Sequence to Sequence Learning with Neural Networks

Deep Neural Networks (DNNs) are powerful models that have achieved excellent performance on difficult learning tasks. Although DNNs work well whenever large labeled training sets are available, they cannot be used to map sequences to sequences. In this pap

arxiv.org

 

Sequence to Sequence 논문 초입

1. Abstract

기존 RNN, LSTM에서 고질적으로 발생하였던 장기의존성을 해결하기 위해 제안된 방법 중 하나, 기존의 심층신경망(DNN)은 복잡한 태스크에서 강력한 퍼포먼스를 보여주는 모델이지만 시퀀스와 시퀀스의 관계를 매핑하는 작업에는 적합하지 않은 단점을 가지고 있다.

 

본 논문에서는 시퀀스 구조에 대한 최소한의 가정을 가진 일반적인 End-To-End 시퀀스 학습 방식을 제안한다

 

위 방법은 다층 LSTM을 사용하여 입력 시퀀스를 고정된 차원의 벡터로 매핑한 다음, 또 다른 LSTM을 사용하여 벡터로부터 출력 시퀀스를 디코딩한다.

 

 

해당 방법을 통해 얻은 결과를 종합하자면

1. BLEU 스코어 34.8 기록 → OOV 발생으로 인해 패널티가 발생하였음에도 성과를 이룸

 

2. 동일 데이터셋에서 기존 구 기반 통계적 기계 번역(SMT) 시스템의 BLEU 점수는 33.3으로, LSTM이 이를 능가했다.

 

3. 통계적 기계 번역(SMT) 시스템이 생성한 1000개의 번역 후보를 LSTM으로 재정렬했을 때, BLEU 점수는 36.5로 증가하며 이전 최고 기록에 근접했다.

2. Introduction

기존 딥러닝은 다양한 분야에서 우수한 성능을 보여줬지만, 대부분 고정된 크기의 벡터(입력,출력과 모두 같아야함)에 의존하는 경향이 강했음.

 

입력과 출력의 길이가 모두 같은 시퀀스 자체로는 기계번역에 있어 가장 큰 단점으로 작용하였는데,

 

예를 들어

 

I go to School 
나는 학교에 간다

 

위 2개의 언어를 비교하는 태스크 및 음성인식과 같은 태스크는 기존의 고정된 태스크로부터 진행하기 어려운 부분이 있었다.

이로 인해 복잡한 피쳐 엔지니어링, 특정 도메인 방식에 의존하는 방식으로 설계되었음.

 

새로운 제안

 

LSTM기반의 End-To-End 모델로, 입력 시퀀스를 고정된 벡터로 매핑 후, 이를 다시 출력 시퀀스로 디코딩을 진행하는 것으로 진행

위 모델은 별도의 도메인 지식 없이도 다양한 시퀀스 학습 문제를 해결할 수 있다는 장점을 가짐.

ㅖ인코더와 디코더

특징 : 위 모델은 입력 문장 "ABC"를 읽고, 출력 문장 "WXYZ"를 생성함, 모델은 EOS 토큰을 통해 문장을 종료 시킨 후 예측을 멈춤, 특히 LSTM은 입력 문장을 역순으로 읽음

 

WMT’14 영어-프랑스어 번역 데이터셋에서의 실험 결과는,

 

제안된 방법이 기존 기계 번역 시스템을 능가하며, 입력 데이터를 역순으로 배치하는 간단한 트릭이 모델 성능을 크게 향상시킴을 보여준다.

추가 설명

결국 인코더(LSTM)와 디코더(LSTM)는 서로 독립적인 모델로 작동하는 네트워크라고 생각하면 되는데,

입력 시퀀스를 읽고,이를 고정된 크기의 컨텍스트 벡터로 압축하고

 

인코더의 마지막 은닉 상태 \(h_T\)가 입력 시퀀스의 전체 정보를 요약해서 디코더에 전달을 한다.

 

고정 크기의 벡터 표현 \(h_T\)

 

또 다른 LSTM 네트워크로 구성된 디코더로 인코더에서 전달 받은 컨텍스트 벡터를초기 상태로 사용, 출력 시퀀스를 생성함.

이전 단계에서 생성된 출력단어를 입력으로 받아 다음 단어를 예측하는 역할

 

EOS 토큰을 기반으로 시퀀스를 생성함 이전 인코딩과는 다른 독립적인 모델이므로 시퀀스길이가 달라도 상관이 없다.

 

출처 : https://github.com/ndb796/Deep-Learning-Paper-Review-and-Practice/tree/master

3. Experiment

제안된 LSTM 기반 Seq2Seq 모델의 성능을 평가하고, 입력 시퀀스를 역순으로 처리하는 기법이 성능에 미치는 영향을 분석하기 위해 설계되었다고 함

데이터셋 및 설정

  1. 데이터셋:
    • WMT'14 영어-프랑스어 번역 데이터셋 사용.
    • 1,200만 문장 쌍으로 구성.
  2. 모델 구성
    • 인코더 : LSTM 네트워크로 구성, 입력 시퀀스를 고정된 크기의 벡터로 매핑
    • 디코더 : 또 다른 LSTM 네트워크로 구성, 인코더 출력 벡터를 입력으로 받아 출력 시퀀스를 생성
    • 입력 데이터 역순 처리 : 입력 문장을 역순으로 배치하여 학습.
  3. 평가 방식
    • 번역 성능 평가를 위해 BLEU 점수 사용

Decoding and Rescoring

실험 목표와 접근 방식

  • 목표:
    LSTM 모델을 학습시켜 입력 문장(S)에 대해 가장 가능성 높은 번역(T)을 생성하고, 번역 성능을 평가.

 

  • 훈련 과정:
    모델은 문장 쌍(S, T)을 기반으로, 번역이 정확할 확률 \(p(T∣S)\) 를 최대화하도록 학습.

 

학습 목표 수식:

$$
\hat{T} = \arg\max_T p(T | S)
$$


설명

  • \(\hat{T}\): 가장 가능성 높은 번역(최적의 번역).
  • \(p(T | S)\): 입력 문장 \(S\)에 대해 번역 \(T\)가 생성될 조건부 확률.
  • \(\arg\max_T\): \(T\)에 대해 \(p(T | S)\)를 최대화하는 번역 (T)를 찾는 과정.

번역 생성 (Decoding)

  • 과정:
    훈련된 모델을 사용하여 가장 가능성 높은 번역 \(\hat{T} = \arg\max_T p(T | S)\)을 생성
    • \(p(T∣S):\) 입력 문장 SSS에 대해 번역 TTT가 나올 확률.
  • 검색 알고리즘:
    • Beam Search Decoder를 사용.
      • Beam Search:
        • Beam Size BBB: 최적의 후보 번역을 유지하는 상위 BBB개의 가설.
        • 번역을 왼쪽에서 오른쪽으로 생성하며, 각 단계에서 모든 가능한 단어로 확장.
        • BBB개의 가장 가능성 높은 가설만 유지하고 나머지는 폐기.
      • 번역 가설이 종료 토큰()을 포함하면, 해당 가설은 완성된 번역으로 처리.
  • 효율성:
    • Beam Size가 작아도 성능이 유지됨.
    • Beam Size = 1: 간단한 방식으로도 좋은 성능.
    • Beam Size = 2: 대부분의 Beam Search의 성능 향상을 제공.

실험 결과 및 분석

  1. 기본 Seq2Seq 모델 성능:
    • LSTM 기반 Seq2Seq 모델은 BLEU 34.8을 기록.
    • 기존 구 기반 통계적 기계 번역(SMT) 시스템의 BLEU 점수 33.3을 초과.
  2. 역순 입력의 효과:
    • 입력 문장을 역순으로 처리했을 때, 모델의 **단기 의존성(short-term dependencies)**이 증가.
    • 이는 최적화 문제를 단순화하고, 모델 학습을 안정화하여 성능을 더욱 향상시킴.
  3. SMT와의 결합:
    • SMT 시스템이 생성한 1,000개의 번역 후보를 Seq2Seq 모델로 재정렬했을 때, BLEU 점수는 36.5로 증가.
    • 이는 Seq2Seq 모델이 번역 결과를 평가하고 최적화를 통해 성능을 더 높일 수 있음을 보여줌.
  4. 모델의 특성:
    • LSTM은 문장의 어순에 민감하게 작동하며, 능동형과 수동형 문장 구조의 차이를 잘 학습.
    • 역순 처리가 없을 때보다 성능이 높아짐.

결론 및 의의

  • 제안된 Seq2Seq 모델은 기존 SMT 시스템보다 뛰어난 성능을 보여줌.
  • 특히, 입력 시퀀스를 역순으로 배치하는 간단한 전략이 최적화를 개선하고 BLEU 점수를 향상시키는 데 중요한 기여를 함.
  • SMT 시스템과 Seq2Seq 모델의 결합은 더 높은 성능을 달성할 수 있는 가능성을 보여줌.

 

4. Experiment Result

모델 성능 분석의 목적

  • Seq2Seq 모델의 구성 요소(예: LSTM, 입력 역순 처리, Beam Search)가 성능에 미치는 영향을 분석.
  • 기존 시스템(예: SMT)과의 비교를 통해 제안된 모델의 장점을 검증.

 

 

WMT'14 영어-프랑스어 번역 데이터셋에서 LSTM 기반 Seq2Seq 모델과 다른 접근법들의 번역 성능을 BLEU 점수로 비교한 결과


BLEU 점수는 번역 품질을 평가하는 주요 지표로, 값이 높을수록 더 좋은 번역을 의미

 

분석:

  1. Baseline System (기존 시스템):
    • 기존 구 기반 통계적 기계 번역(SMT) 시스템은 BLEU 점수 33.30을 기록.
  2. Forward vs. Reversed LSTM:
    • 순방향(forward) LSTM은 BLEU 26.17로 낮은 성능을 보임.
    • 반면, 입력 데이터를 역순으로 처리한 LSTM은 BLEU 30.59로 성능이 크게 향상.
  3. Ensemble의 효과:
    • 여러 개의 LSTM 모델을 결합(Ensemble)하면 성능이 더욱 향상됨.
    • 특히, 5개의 역순 LSTM을 Beam Size 2로 결합하면 BLEU 34.50 기록.
    • Beam Size를 12로 늘리면 BLEU 34.81로 최고 성능을 달성.

분석 (n-best Rescoring):

 

  • 기본 성능:
    • Baseline System의 BLEU 점수는 33.30.
  • Rescoring 효과:
    • LSTM 모델로 n-best 후보를 재정렬하면 BLEU 점수가 증가.
    • 단일 LSTM으로 재정렬 시, Forward LSTM은 35.61, Reversed LSTM은 35.85를 기록.
  • Ensemble의 효과:
    • 5개의 역순 LSTM을 결합해 재정렬한 경우, BLEU 점수 36.5로 더욱 향상.
  • Oracle Rescoring:
    • Oracle 방식으로 재정렬한 경우 BLEU ~45로 최대 성능 달성 가능성을 보여줌.

결론

  1. 입력 역순 처리:
    • 입력 데이터를 역순으로 처리한 Reversed LSTM이 순방향 LSTM보다 성능이 뛰어남.
  2. Ensemble과 Beam Size의 효과:
    • 여러 LSTM 모델을 결합하거나 Beam Size를 조정하면 성능이 더욱 향상.
  3. Rescoring의 효과:
    • LSTM을 사용한 n-best 후보 재정렬은 기존 번역 시스템의 성능을 크게 향상시킴.
    • 특히, 역순 처리된 LSTM과 Ensemble을 조합했을 때 가장 큰 성능 향상.
  4. 최고 성능:
    • Ensemble of 5 reversed LSTMs (Beam Size 12): BLEU 34.81
    • Rescoring with Ensemble of 5 reversed LSTMs: BLEU 36.5

왼 : 문장 길이에 따른 BLEU 점수 비교 오른 : 단어 빈도에 따른 BLEU 점수 비교

 

 

 

결론

 

  • LSTM 모델(역순 처리 포함)은 Baseline 시스템보다 번역 품질이 우수하며, 특히 긴 문장과 드문 단어를 포함한 문장에서 강점을 보임.
  • 이 결과는 Seq2Seq 모델이 Baseline 시스템을 대체하거나 보완할 수 있는 가능성을 보여줌