Abstract

- Transformer는 Self-Attention만으로 구성된 새로운 인코더-디코더 모델

1. 병렬 처리가 가능해지며 RNN보다 빠른 속도와 높은 정확도를 달성

2. Long-term dependency problem 해결

3. 자연어 처리 분야의 성과

Introduction

Transduction models

- 입력 시퀀스를 출력 시퀀스로 변환하는 모델

- e.g. RNN, Transformer, CNN

Global dependency

- 입력 시퀀스의 모든 단어와 출력 시퀀스의 모든 단어 사이에 서로 연결되는 관계 (상호 작용)

- 이 관계가 잘 학습될수록 번역 품질이 좋아짐

- 순차 연산을 줄이기 위해 Extended Neural GPU [16], ByteNet [18] and ConvS2S이 제안됨

컨볼루션 신경망을 기반으로 모든 입출력 위치에 대한 hidden representations를 병렬로 계산
하지만, 위의 모델들은 임의의 입력과 출력의 신호 관계를 나타내기 위한 연산량이 해당 위치간의 거리에 따라 증가함
➞ 즉 거리가 멀어질수록 입출력간의 관계를 파악하기 위해 더 많은 계산이 필요해짐 ( 학습하기 어려움)

- Transformer는 거리에 따른 연산 수를 일정한 수준으로 유지하기 위해 Multi-Head Attention을 사용함

※ hidden representations : 입력 데이터의 특징을 나타내는 다차원 공간에서의 벡터

※ hidden layer vector는 모델 내부에서의 계산에서 사용되는 벡터로 hidden representation이랑은 다른 개념

End-to-end memory networks

- input으로 Context와 Question을 받고, 정해진 Answer를 출력하는 모델

- Context 벡터와 Question 벡터의 유사도(내적)를 Context에 더하는 과정이 attention과 동일해 본 논문에서 언급한듯

[QG]A Feasibility Study of Answer-Agnostic Question Generation forEducation / 2022 ACL (0)	2023.03.26
[Transformer] Attention Is All You Need (2) : Model Architecture(Encoder, Decoder) (0)	2023.03.03