메모리 측면에서 BERT는 한계에 부딪혔다. 최대 8배 길이의 시퀀스를 처리할 수 있다. 긴 맥락을 처리할 수 있다.
여분의 글로벌 토큰을 사용하여 모델의 표현력을 보존한다. 스파스 어텐션 매커니즘으로의 이동에는 비용이 발생한다.
그래프 희소화 방법에서 영감.
세가지로 이루어져 있다.
시퀀스의 모든 부분에 참여하는 일련의 global 토큰
•local 인접 토큰 집합에 참여하는 모든 토큰.
•랜덤 토큰 집합에 참여하는 모든 토큰
Transformer의 알려진 모든 이론적 특성을 만족시킨다.
DNA와 같은 유전체 시퀀스의 맥락적 표현을 추출.다운스트림 작업의 성능을 향상
self attention의 2차 복잡성을 줄이는 문제는 고분자화 문제로 볼 수 있다.대부분의 문맥이 지역성을 나타내는 데이터를 가지고 있다. 인접 토큰으로부터 토큰에 대한 많은 정보를 얻을 수 있다.일부 기존 토큰을 전역 토큰으로 만들고 이것은 엔터티어 시퀀스에 붙게 한다.
스파스 어텐션 매커니즘. 각 시퀀스의 시작 부분에 특수 토큰을 추가하고 특수 벡터를 할당.튜링 머신을 시뮬레이션하는 데 사용될 수 있다.
SentenceBERT (0) | 2021.11.22 |
---|---|
11월 22일, 23일 - SentenceBERT (0) | 2021.11.22 |
11월 17, 18, 19일 주제 BigBird (0) | 2021.11.15 |
BertGCN (0) | 2021.11.15 |
11월 15일, 16일 주제 - BertGCN (0) | 2021.11.14 |
댓글 영역