시퀀스 데이터는 순서와 문맥 등이 바뀌면 의미가 달라지기 때문에 모델링하기가 까다롭다. 이러한 누락된 정보를 가진 시퀀스 데이터를 모델링하기 위해 고안된 방법이 Transformer이다. 1. Transformer Transformer의 가장 큰 특징은 recurrent하게 모델이 반복되지 않고, attention을 활용하여 context 정보를 반영할 수 있게 구현한 것이다. Transformer의 구조는 크게 encoder와 decoder로 구성되어있고 encoder 부분에서 self-attention으로 input 데이터의 representation(Q,K,V)을 추출한다. 그 후 추출한 representation에서 K, V와 decoder에 적용하여 직전 스텝의 output을 input으로 하여..