로고 이미지

고정 헤더 영역

글 제목

메뉴 레이어

로고 이미지

메뉴 리스트

  • 홈
  • 태그
  • 방명록
  • 분류 전체보기 (31)
    • Story (2)
    • Data Scientist (26)

검색 레이어

로고 이미지

검색 영역

컨텐츠 검색

분류 전체보기

  • KnowBERT

    2021.12.13 by 자색 고구마칩

  • 12월 3주차 주제 - knowBERT

    2021.12.13 by 자색 고구마칩

  • MERL

    2021.12.08 by 자색 고구마칩

  • 12월 8, 9, 10일 주제 - MERL

    2021.12.06 by 자색 고구마칩

  • Albert

    2021.12.06 by 자색 고구마칩

  • 12월 6,7일 주제 - Albert

    2021.12.06 by 자색 고구마칩

  • GPT3

    2021.12.03 by 자색 고구마칩

  • GPT2

    2021.11.29 by 자색 고구마칩

KnowBERT

https://www.youtube.com/watch?v=ha6wypu8a8A&ab_channel=AIP-State-of-the-ArtAIResearch 지식베이스. 각 KB에 대해 먼저 통합 엔티 링커를 사용하여 관련 엔티티 임베딩을 검색한 다음 단어 대 어텐션 형태를 통해 컨텍스트 단어 표현을 업데이트한다. 큰 KB로 확장되는 BERT 사실적 지식 인코딩 가능성 높아짐 KAR 매커니즘으로 사전 훈련된 대형 모델에 여러 KB 삽입. 전체 KAR은 사전 훈련된 모델 두 개 사이에 삽입된다. 출력 손실 레이어를 유지하고 KAR을 교육하는 동안 레이블이 없는 말뭉치를 파인튜닝 가능. 원래 모델에 대용량 레이어를 구축함으로써 최소 추가 매개변수 및 런타임을 추가한다. 다른 위치에 추가 KB를 삽입하는 것만으로..

카테고리 없음 2021. 12. 13. 17:56

12월 3주차 주제 - knowBERT

https://arxiv.org/abs/1909.04164 Knowledge Enhanced Contextual Word Representations Contextual word representations, typically trained on unstructured, unlabeled text, do not contain any explicit grounding to real world entities and are often unable to remember facts about those entities. We propose a general method to embed multiple know arxiv.org http://mlgalaxy.blogspot.com/2019/12/knowledge-..

카테고리 없음 2021. 12. 13. 17:20

MERL

Event Representation Learning: 비슷한 사건은 가까이, 다른 사건은 멀리 위치시키는 방식 3개 이벤트의 triple(주어, 목적어, 서술어) 같은 주어와 동사를 씀에도 전혀 다른 뜻을 가질 때, 혹은 반대일 때 공간에 임베딩시키기 힘들다. 임베딩을 할 당시 이미지와 triple(텍스트)를 같은 곳에 이미지를 매핑하는 기존 방식

카테고리 없음 2021. 12. 8. 19:24

12월 8, 9, 10일 주제 - MERL

https://ojs.aaai.org/index.php/AAAI/article/view/17695 MERL: Multimodal Event Representation Learning in Heterogeneous Embedding Spaces | Proceedings of the AAAI Conference on ojs.aaai.org https://www.youtube.com/watch?v=shnfzksjm1M 오늘 논문은 어떤 하나의 사건을 Embedding 공간안에 표현하는 방법으로 학습을 시키는 방법론, Event Representation 방법을 통해 학습을 하는 방법에 대해 소개합니다. 하나의 문장을, 주어 동사 목적어가 동일한 세개의 문장으로 표현하고, 해당 문장들로 학습을 시켰을때 매우 극..

Data Scientist 2021. 12. 6. 08:00

Albert

bert - training과 inference 시 memory limitation 오랜 training time 소요 factorized embedding parameterization cross layer parameter sharing으로 해결 bert: embedding size와 hidden size 동일 albert: embedding size가 hidden size보다 작음 -> hidden size는 토큰과 주변 토큰간의 관계까지 반영. hidden size가 더 많은 정보를 담고 있다. E*H matrix를 곱해줘서 input size를 h*h로 맞춰준다. albert에서는 layer의 모든 parameter를 공유한다. 1/9 수준으로 파라미터 줄어들었다. 메모리가 줄어들고(OOM 줄어..

Data Scientist 2021. 12. 6. 07:58

12월 6,7일 주제 - Albert

https://arxiv.org/abs/1909.11942 ALBERT: A Lite BERT for Self-supervised Learning of Language Representations Increasing model size when pretraining natural language representations often results in improved performance on downstream tasks. However, at some point further model increases become harder due to GPU/TPU memory limitations and longer training times. To arxiv.org https://www.youtube.co..

Data Scientist 2021. 12. 6. 07:57

GPT3

few shot: 0~100개 정도의 작은 예제만 가지고도 문제를 풀 수 있다. gpt2에서는 zeroshot을 주장했다. gpt2와 동일하게 학습했음. BPE Tokenizer. gpt3에서는 엄청나게 대용량의 데이터로 학습시켰다. 0개의 예제. "프랑스어로 바꾸시오"라는 명령만 가지고도 어느 정도의 성능을 낼 수 있음. natural language 코딩도 해준다. BERT large는 0.3B params였음.. 굉장히 큰 parameter를 가지고 있기 때문에 일반인이 쓰기는 힘들다 700G 메모리. 만개의 GPU 메모리로 학습하였음. 예제로부터 학습하는 건지. 패턴으로부터 학습되는 건지는 알 수 없다. few shot learning이 어떻게 학습하는 건지 미지수이다. 동일단어 반복하는 등 여러..

Data Scientist 2021. 12. 3. 17:56

GPT2

언어모델이 수백만개 웹페이지의 새로운 데이터셋에 대해 훈련할 때 어떠한 명시적인 감독 없이 학습한다. 대규모 언어 모델이 충분히 크고 다양한 데이터셋에서 훈련되면 많은 도메인 및 데이터 세트에서 잘 수행할 수 있다. gpt2는 최신 성능을 제로샷한다. 모델이 제로샷 환경에서 명시적 감독 없이도 놀라운 양의 작업을 수행하는 방법을 알아서 배운다. 제로샷 - 훈련 데이터 필요 없이 결과 데이터 셋을 수동으로 만들고 레이블을 붙일 필요가 없다. 웹 스크랩 포함시킴. Reddit 등. Webtext에서 wikipedia 내용은 뺐다. BPE(Byte Pair Encoding)으로 기본 어휘 얻기 Transformer 기반 아키텍처. OPEN AI GPT 세부사항을 따른다. 비지도학습이 탐구해야 할 유망한 연구영..

Data Scientist 2021. 11. 29. 13:34

추가 정보

인기글

최신글

페이징

이전
1 2 3 4
다음
TISTORY NAVER BLOG GITHUB
푸터 로고 © Magazine Lab
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바