BERT 모델은 Jacob Devlin, Ming-Wei Chang, Kenton Lee 및 Kristina Toutanova 가 BERT : 언어 이해 를 위한 Deep Bidirectional Transformers의 사전 교육 에서 제안되었습니다 . 이것은 Toronto Book Corpus와 Wikipedia로 구성된 대규모 말뭉치에서 마스크 된 언어 모델링 목표와 다음 문장 예측의 조합을 사용하여 사전 훈련 된 양방향 변환기입니다.
논문의 초록은 다음과 같습니다.
Transformers의 Bidirectional Encoder Representations를 의미하는 BERT라는 새로운 언어 표현 모델을 소개합니다. 최근의 언어 표현 모델과 달리 BERT는 모든 레이어의 왼쪽 및 오른쪽 컨텍스트에 대한 공동 조건을 지정하여 레이블이 지정되지 않은 텍스트에서 깊은 양방향 표현을 사전 훈련하도록 설계되었습니다. 결과적으로 사전 훈련 된 BERT 모델은 단 하나의 추가 출력 레이어로 미세 조정되어 실질적인 작업없이 질문 답변 및 언어 추론과 같은 광범위한 작업을위한 최신 모델을 생성 할 수 있습니다. 특정 아키텍처 수정.
BERT는 개념적으로 간단하고 경험적으로 강력합니다. GLUE 점수를 80.5 % (7.7 % 포인트 절대 향상), MultiNLI 정확도를 86.7 % (4.6 % 절대 향상), SQuAD v1.1로 올리는 등 11 개의 자연어 처리 작업에 대한 새로운 최신 결과를 얻습니다. 시험 F1 ~ 93.2 (1.5 점 절대 향상) 및 SQuAD v2.0 시험 F1 ~ 83.1 (5.1 점 절대 향상)에 대한 질문에 답합니다.
팁 :
-
BERT는 절대 위치 임베딩이있는 모델이므로 일반적으로 왼쪽이 아닌 오른쪽에있는 입력을 채우는 것이 좋습니다.
-
BERT는 MLM (Masked Language Modeling) 및 NSP (Next 문장 예측) 목표로 훈련되었습니다. 마스킹 된 토큰과 일반적으로 NLU를 예측하는 데 효율적이지만 텍스트 생성에는 최적이 아닙니다.
'Machine Learning > Deep Running' 카테고리의 다른 글
Pytorch 1.7 + colab TPU 병렬처리 사용법 (0) | 2020.12.21 |
---|---|
hugging face / open source (0) | 2020.08.19 |
Tensorflow 1.x -> 2.x 로 변환하기 (0) | 2020.07.17 |
Tensorflow 1.5 사용시 "Could not flatten dictionary: key Tensor("MultiRNNCellZeroState/BasicLSTMCellZeroState/zeros:0", shape=(int, int ), dtype=float32) is not unique" 오류 발생시 (0) | 2020.07.17 |
IMDB 데이터를 이용한 간단한 LSTM, GRU, Simple RNN 구현 (0) | 2020.07.15 |