Transformer 논문을 아래 목차로 나눠 리뷰합니다.
1. Abstract ~ Background
2. Model Architecture
3. Attention
4. FFN, Positional Encoding
5. Training
6. Result, Conclution
Abstract
- Transformer는 Self-Attention만으로 구성된 새로운 인코더-디코더 모델
Contribution
1. 병렬 처리가 가능해지며 RNN보다 빠른 속도와 높은 정확도를 달성
2. Long-term dependency problem 해결
3. 자연어 처리 분야의 성과
Introduction
Transduction models
- 입력 시퀀스를 출력 시퀀스로 변환하는 모델
- e.g. RNN, Transformer, CNN
Global dependency
- 입력 시퀀스의 모든 단어와 출력 시퀀스의 모든 단어 사이에 서로 연결되는 관계 (상호 작용)
- 이 관계가 잘 학습될수록 번역 품질이 좋아짐
Background
- 순차 연산을 줄이기 위해 Extended Neural GPU [16], ByteNet [18] and ConvS2S이 제안됨
- 컨볼루션 신경망을 기반으로 모든 입출력 위치에 대한 hidden representations를 병렬로 계산
- 하지만, 위의 모델들은 임의의 입력과 출력의 신호 관계를 나타내기 위한 연산량이 해당 위치간의 거리에 따라 증가함
➞ 즉 거리가 멀어질수록 입출력간의 관계를 파악하기 위해 더 많은 계산이 필요해짐 ( 학습하기 어려움)
- Transformer는 거리에 따른 연산 수를 일정한 수준으로 유지하기 위해 Multi-Head Attention을 사용함
※ hidden representations : 입력 데이터의 특징을 나타내는 다차원 공간에서의 벡터
※ hidden layer vector는 모델 내부에서의 계산에서 사용되는 벡터로 hidden representation이랑은 다른 개념
End-to-end memory networks
- input으로 Context와 Question을 받고, 정해진 Answer를 출력하는 모델
- Context 벡터와 Question 벡터의 유사도(내적)를 Context에 더하는 과정이 attention과 동일해 본 논문에서 언급한듯
'NLP > NLP Paper' 카테고리의 다른 글
[QG]A Feasibility Study of Answer-Agnostic Question Generation forEducation / 2022 ACL (0) | 2023.03.26 |
---|---|
[Transformer] Attention Is All You Need (2) : Model Architecture(Encoder, Decoder) (0) | 2023.03.03 |