Data Scientist
Transformer
자색 고구마칩
2021. 11. 1. 15:20
RNN은 직렬로 연결되어 느리다.
Attention + 시간, 시계열적 정보를 주입하는 방식은 연산량이 줄고 성능이 좋아진다.
encoder, decoder가 동일하게 생겼다.
key-value query imbedding을 통해서 multi-head attention
이 구조가 약간 correlation과 비슷하다.
ReLU + Linear function 2개
연관성 있는 데이터만 변환하기 위해(attention하기 위해) Mask 사용 - 연관성이 없으면 -무한의 가중치를 곱하기
재학습이 가능한 딥러닝
병렬화 가능 - O(1)
훨씬 빠른 학습속도, 좋은 성능.
Recurrent, Convolution 사용 안함.
GPT는 Transformer의 디코더 아키텍처 활용
BERT는 Transformer의 인코더 아키텍처 활용
Seq2Seq는 정보 압축 과정에서 성능 하락이 있을 수 있다.
Attention은 인코더의 모든 출력을 참고, 집중한다.
RNN, CNN 전혀 사용하지 않음
문매 정보 학습하도록 한다.
기존껄 추가하면서 잔여 학습 : Add + Norm => 학습 빠르고 간편
레이어 마지막에서 출력값을 매번 디코더의 레이어에 넘겨주기
각 키에 대한 확률값 Softmax로
positional encoding