BERT: CLS로 의미적인 문맥을 파악하지 못한다. poly-encoder가 너무 크다. 연산 오버헤드가 크다 score function이 symmetric하지 못한다(단순 뒤바뀐 것을 같은 것으로 파악하지 못한다)
Sentence bert: paraphrase, 비슷한 문장 찾기에 적합, clustering, 정보 검색
50시간에서 몇ms로 줄일 수 있다. NLI 데이터로 파인튜닝.
우리는 세 가지 풀링 전략을 실험한다. CLS-토큰의 출력을 사용하고, 모든 출력 벡터의 평균 계산(MEAN-전략), 출력 벡터의 최대 오버 타임 계산(MAX-전략)을 사용합니다. 기본 config-uration은 MEAN입니다.
siamese/triple network architecture 사용
BERT를 통해 샴 방식으로 2 개의 문장을 전달하는 것 입니다.
분명히 NLI + STS 모두에서 미세 조정하면 최상의 모델이 생성됩니다.
계산적으로 효율적임.
문장을 입력 벡터로(단어 정보는 일부 loss)
GPT1 (0) | 2021.11.25 |
---|---|
11월 24, 25, 26일 주제 - GPT1 (0) | 2021.11.25 |
11월 22일, 23일 - SentenceBERT (0) | 2021.11.22 |
Bigbird (0) | 2021.11.18 |
11월 17, 18, 19일 주제 BigBird (0) | 2021.11.15 |
댓글 영역