본문 바로가기

NLP/NLP Paper

[Transformer] Attention Is All You Need (1) : Abstract부터 Background까지

반응형
반응형

Transformer 논문을 아래 목차로 나눠 리뷰합니다. 

더보기

1. Abstract ~ Background 

2. Model Architecture

3. Attention

4. FFN, Positional Encoding

5. Training

6. Result, Conclution


Abstract

- Transformer는 Self-Attention만으로 구성된 새로운 인코더-디코더 모델


Contribution

1. 병렬 처리가 가능해지며 RNN보다 빠른 속도와 높은 정확도를 달성

2. Long-term dependency problem 해결

3. 자연어 처리 분야의 성과 


Introduction

 

Transduction models

- 입력 시퀀스를 출력 시퀀스로 변환하는 모델

- e.g. RNN, Transformer, CNN

 

Global dependency

- 입력 시퀀스의 모든 단어와 출력 시퀀스의 모든 단어 사이에 서로 연결되는 관계 (상호 작용)

- 이 관계가 잘 학습될수록 번역 품질이 좋아짐


Background

- 순차 연산을 줄이기 위해 Extended Neural GPU [16], ByteNet [18] and ConvS2S이 제안됨

  • 컨볼루션 신경망을 기반으로 모든 입출력 위치에 대한 hidden representations를 병렬로 계산
  • 하지만, 위의 모델들은 임의의 입력과 출력의 신호 관계를 나타내기 위한 연산량이 해당 위치간의 거리에 따라 증가함
    ➞ 즉 거리가 멀어질수록 입출력간의 관계를 파악하기 위해 더 많은 계산이 필요해짐 ( 학습하기 어려움)

- Transformer는 거리에 따른 연산 수를 일정한 수준으로 유지하기 위해 Multi-Head Attention을 사용함

 

hidden representations : 입력 데이터의 특징을 나타내는 다차원 공간에서의 벡터

hidden layer vector는 모델 내부에서의 계산에서 사용되는 벡터로 hidden representation이랑은 다른 개념

 

End-to-end memory networks

- input으로 Context와 Question을 받고, 정해진 Answer를 출력하는 모델

- Context 벡터와 Question 벡터의 유사도(내적)를 Context에 더하는 과정이 attention과 동일해 본 논문에서 언급한듯

 

 

 

 

 

반응형