본문 바로가기

Machine Learning/Deep Running

BERT

BERT 모델은 Jacob Devlin, Ming-Wei Chang, Kenton Lee 및 Kristina Toutanova  BERT : 언어 이해  위한 Deep Bidirectional Transformers의 사전 교육 에서 제안되었습니다 . 이것은 Toronto Book Corpus와 Wikipedia로 구성된 대규모 말뭉치에서 마스크 된 언어 모델링 목표와 다음 문장 예측의 조합을 사용하여 사전 훈련 된 양방향 변환기입니다.

논문의 초록은 다음과 같습니다.

Transformers의 Bidirectional Encoder Representations를 의미하는 BERT라는 새로운 언어 표현 모델을 소개합니다. 최근의 언어 표현 모델과 달리 BERT는 모든 레이어의 왼쪽 및 오른쪽 컨텍스트에 대한 공동 조건을 지정하여 레이블이 지정되지 않은 텍스트에서 깊은 양방향 표현을 사전 훈련하도록 설계되었습니다. 결과적으로 사전 훈련 된 BERT 모델은 단 하나의 추가 출력 레이어로 미세 조정되어 실질적인 작업없이 질문 답변 및 언어 추론과 같은 광범위한 작업을위한 최신 모델을 생성 할 수 있습니다. 특정 아키텍처 수정.

BERT는 개념적으로 간단하고 경험적으로 강력합니다. GLUE 점수를 80.5 % (7.7 % 포인트 절대 향상), MultiNLI 정확도를 86.7 % (4.6 % 절대 향상), SQuAD v1.1로 올리는 등 11 개의 자연어 처리 작업에 대한 새로운 최신 결과를 얻습니다. 시험 F1 ~ 93.2 (1.5 점 절대 향상) 및 SQuAD v2.0 시험 F1 ~ 83.1 (5.1 점 절대 향상)에 대한 질문에 답합니다.

팁 :

  • BERT는 절대 위치 임베딩이있는 모델이므로 일반적으로 왼쪽이 아닌 오른쪽에있는 입력을 채우는 것이 좋습니다.

  • BERT는 MLM (Masked Language Modeling) 및 NSP (Next 문장 예측) 목표로 훈련되었습니다. 마스킹 된 토큰과 일반적으로 NLU를 예측하는 데 효율적이지만 텍스트 생성에는 최적이 아닙니다.

출처 : https://huggingface.co/transformers/model_doc/bert.html?highlight=class#transformers.BertForTokenClassification