BERT

BERT 모델은 Jacob Devlin, Ming-Wei Chang, Kenton Lee 및 Kristina Toutanova 가 BERT : 언어 이해 를 위한 Deep Bidirectional Transformers의 사전 교육 에서 제안되었습니다 . 이것은 Toronto Book Corpus와 Wikipedia로 구성된 대규모 말뭉치에서 마스크 된 언어 모델링 목표와 다음 문장 예측의 조합을 사용하여 사전 훈련 된 양방향 변환기입니다.

논문의 초록은 다음과 같습니다.

Transformers의 Bidirectional Encoder Representations를 의미하는 BERT라는 새로운 언어 표현 모델을 소개합니다. 최근의 언어 표현 모델과 달리 BERT는 모든 레이어의 왼쪽 및 오른쪽 컨텍스트에 대한 공동 조건을 지정하여 레이블이 지정되지 않은 텍스트에서 깊은 양방향 표현을 사전 훈련하도록 설계되었습니다. 결과적으로 사전 훈련 된 BERT 모델은 단 하나의 추가 출력 레이어로 미세 조정되어 실질적인 작업없이 질문 답변 및 언어 추론과 같은 광범위한 작업을위한 최신 모델을 생성 할 수 있습니다. 특정 아키텍처 수정.

BERT는 개념적으로 간단하고 경험적으로 강력합니다. GLUE 점수를 80.5 % (7.7 % 포인트 절대 향상), MultiNLI 정확도를 86.7 % (4.6 % 절대 향상), SQuAD v1.1로 올리는 등 11 개의 자연어 처리 작업에 대한 새로운 최신 결과를 얻습니다. 시험 F1 ~ 93.2 (1.5 점 절대 향상) 및 SQuAD v2.0 시험 F1 ~ 83.1 (5.1 점 절대 향상)에 대한 질문에 답합니다.

팁 :

BERT는 절대 위치 임베딩이있는 모델이므로 일반적으로 왼쪽이 아닌 오른쪽에있는 입력을 채우는 것이 좋습니다.
BERT는 MLM (Masked Language Modeling) 및 NSP (Next 문장 예측) 목표로 훈련되었습니다. 마스킹 된 토큰과 일반적으로 NLU를 예측하는 데 효율적이지만 텍스트 생성에는 최적이 아닙니다.

출처 : https://huggingface.co/transformers/model_doc/bert.html?highlight=class#transformers.BertForTokenClassification

'Machine Learning > Deep Running' 카테고리의 다른 글

Pytorch 1.7 + colab TPU 병렬처리 사용법 (0)	2020.12.21
hugging face / open source (0)	2020.08.19
Tensorflow 1.x -> 2.x 로 변환하기 (0)	2020.07.17
Tensorflow 1.5 사용시 "Could not flatten dictionary: key Tensor("MultiRNNCellZeroState/BasicLSTMCellZeroState/zeros:0", shape=(int, int ), dtype=float32) is not unique" 오류 발생시 (0)	2020.07.17
IMDB 데이터를 이용한 간단한 LSTM, GRU, Simple RNN 구현 (0)	2020.07.15

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

유의미한 데이터를 수집하고 정제하는 데이터 서빙꾼

BERT

'Machine Learning > Deep Running' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

BERT

'Machine Learning > Deep Running' 카테고리의 다른 글

'Machine Learning/Deep Running' Related Articles

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역