Data Scientist
GPT2
자색 고구마칩
2021. 11. 29. 13:34
언어모델이 수백만개 웹페이지의 새로운 데이터셋에 대해 훈련할 때 어떠한 명시적인 감독 없이 학습한다.
대규모 언어 모델이 충분히 크고 다양한 데이터셋에서 훈련되면 많은 도메인 및 데이터 세트에서 잘 수행할 수 있다. gpt2는 최신 성능을 제로샷한다. 모델이 제로샷 환경에서 명시적 감독 없이도 놀라운 양의 작업을 수행하는 방법을 알아서 배운다.
제로샷 - 훈련 데이터 필요 없이 결과
데이터 셋을 수동으로 만들고 레이블을 붙일 필요가 없다.
웹 스크랩 포함시킴. Reddit 등. Webtext에서 wikipedia 내용은 뺐다.
BPE(Byte Pair Encoding)으로 기본 어휘 얻기
Transformer 기반 아키텍처. OPEN AI GPT 세부사항을 따른다.
비지도학습이 탐구해야 할 유망한 연구영역이다.
감독이나 수정 없이 작업을 직접 수행한다.
finetuning의 끝이 어디에 있는지 명확하지 않다.
GPT2의 훈련데이터와 용량은 BERT가 입증한 단방향 표현의 비효율성을 극복한다.