Transformer

Data Scientist

자색 고구마칩 2021. 11. 1. 15:20

RNN은 직렬로 연결되어 느리다.

Attention + 시간, 시계열적 정보를 주입하는 방식은 연산량이 줄고 성능이 좋아진다.

encoder, decoder가 동일하게 생겼다.

key-value query imbedding을 통해서 multi-head attention

이 구조가 약간 correlation과 비슷하다.

ReLU + Linear function 2개

연관성 있는 데이터만 변환하기 위해(attention하기 위해) Mask 사용 - 연관성이 없으면 -무한의 가중치를 곱하기

재학습이 가능한 딥러닝

병렬화 가능 - O(1)

훨씬 빠른 학습속도, 좋은 성능.

Recurrent, Convolution 사용 안함.

GPT는 Transformer의 디코더 아키텍처 활용

BERT는 Transformer의 인코더 아키텍처 활용

Seq2Seq는 정보 압축 과정에서 성능 하락이 있을 수 있다.

Attention은 인코더의 모든 출력을 참고, 집중한다.

RNN, CNN 전혀 사용하지 않음

문매 정보 학습하도록 한다.

기존껄 추가하면서 잔여 학습 : Add + Norm => 학습 빠르고 간편

레이어 마지막에서 출력값을 매번 디코더의 레이어에 넘겨주기

각 키에 대한 확률값 Softmax로

positional encoding