[논문 리뷰] BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding
이 논문은 BERT를 소개하며 모델구조, 사전훈련, 성능평가, 전이학습 등에 대해 이야기 하고 있다.
모델 구조: BERT는 Transformer 모델의 변형을 기반으로 한다. Transformer는 인코더와 디코더로 구성되어 있지만, BERT에서는 디코더를 제거하고 인코더만을 사용하며, Transformer의 인코더를 여러 겹 쌓아서 깊은 표현을 얻는다. 이러한 구조는 양방향 (bidirectional)으로 문맥을 고려하여 토큰의 표현을 생성할 수 있게 한다.
사전 훈련: BERT는 대량의 텍스트 데이터를 사용하여 사전 훈련된다. 사전 훈련은 두 가지 주요 과제로 이루어집니다.
첫 번째는 Masked Language Model (MLM) 과제로, 입력 문장에서 일부 단어를 마스킹하고 모델은 이를 예측하여 언어 이해 능력을 향상시킨다.
두 번째는 Next Sentence Prediction (NSP) 과제로, 두 문장이 주어졌을 때 그것들이 이어지는 문장인지 아닌지를 예측하도록 모델을 훈련시킨다.
성능 평가: 논문에서는 BERT 모델이 다양한 자연어 처리 작업에서 우수한 성능을 보여준다는 것을 실험적으로 입증하고 있다.
전이 학습: BERT는 fine-tunning을 통해 특정 작업에 맞게 재사용될 수 있습니다. pre training된 BERT 모델의 가중치를 가져와서 특정 작업에 맞게 fine-tunning함으로써, 작은 데이터셋에서도 효과적으로 작동할 수 있다.
상세한 내용은 아래와 같다.
Abstract
BERT 새로운 언어 모델 소개
BERT는 Bidirectional Encoder Representations의 약자로, 트랜스포머의 양방향 인코더를 의미한다. BERT는 이전의 언어 표현 모델(Peters et al., 2018a; Radford et al., 2018)과 달리 모든 계층에서 왼쪽 및 오른쪽 컨텍스트를 공동으로 조건화하여 레이블이 지정되지 않은 텍스트에서 심층 양방향 표현을 사전 학습하도록 설계되었다.
따라서 사전 학습된 BERT 모델은 하나의 추가 출력 레이어로 미세 조정하여 실질적인 작업별 아키텍처 수정 없이도 질문 답변 및 언어 추론과 같은 광범위한 작업에 대한 최첨단 모델을 만들 수 있다.
BERT의 성능은 아래를 포함하여 11개의 자연어 처리 작업에서 결과를 냈다.
GULE 점수 80.5%(7.7% 포인트 절대 개선)
MultiNLI 정확도를 86.7%(4.6% 절대 개선)
SQuAD v1.1 질문 답변 테스트 F1 ~ 93.2(1.5 포인트 절대 개선)
SQuAD v2.0 테스트 F1 ~ 83.1(5.1 포인트 절대 개선)
Introduction
사전 학습된 언어 표현을 적용하기 위한 기존 전략으로는 feature-based 와 fine-tunning이 있다. (fine-tuning는 미세하지만 임베딩까지 모두 업데이트하는 기법이고, feature-based는 임베딩을 그대로 두고 그 위에 레이어만 학습하는 방법이다.)
ELMo(Peters et al., 2018a)와 같은 feature-based 방식은 특정한 task에 맞는 구조를 가지고, 사전훈련된 표현(pre-traind representation)을 특성으로 추가한다. Generative Pre-trained Transformer(OpenAIGPT)(Radford et al., 2018)와 같은 fine-tunning 방식은 최소한의 task별 매개 변수를 도입하고 이전 학습된 파라미터를 fine-tunning 한다.
두 접근 방식은 사전 훈련 중에 동일한 목적 함수(object function)를 공유하며, 여기서 단방향 언어 모델을 사용하여 일반 언어 표현을 학습한다.
이러한 현재의 기술이 특히 fine-tunning 방식에 대해 사전 훈련을 제한한다. 주요 제한 사항은 표준 언어 모델이 단방향이라는 것이며, 이는 사전 훈련 중에 사용할 수 있는 아키텍처의 선택을 제한한다는 것과 같다.
예를 들어, OpenAI GPT에서 저자는 모든 토큰이 트랜스포머의 자체 attention 계층에서 이전 토큰에만 참여할 수 있는 좌에서 우로 아키텍처를 사용한다(Vaswani et al., 2017). 이러한 제한은 문장 수준 작업에 최적이 아니며, 질문 답변과 같은 토큰 수준 작업에 미세 조정 기반 접근 방식을 적용할 때 매우 해로울 수 있으며, 양방향의 컨텍스트를 통합하는 것이 중요하다.
이 논문에서는 BERT를 제안하여 미세 조정 기반 접근 방식을 개선한다. BERT는 Cloze 작업(Taylor, 1953)에서 영감을 얻은 "masked language model"(MLM)을 사용하여 이전에 언급한 단방향성 제약을 완화한다. MLM은 토큰 일부를 무작위로 마스킹하고 마스트된 단어의 원래 어휘를 예측하는 것을 목표로 한다. 왼쪽에서 오른쪽으로 언어 모델 사전 학습과 달리 MLM 목표를 사용하면 표현이 왼쪽과 오른쪽 컨텍스트를 융합하여 학습할 수 있다. 마스크된 언어 모델 외에도 텍스트 쌍 표현을 공동으로 사전 학습하는 "next sentence prediction" 작업도 사용한다.
Related Work
pre-training language representation은 오랜 역사를 가지고 있으며, 이 섹션에서 가장 널리 사용되는 접근 방식을 살펴본다.
Unsupervised Feature-based Approaches
널리 적용 가능한 단어 표현을 학습하는 것은 비신경(Brown et al., 1992; Ando and Zhang, 2005; Blitzer et al., 2006) 및 신경(Mikolov et al., 2013; Pennington et al., 2014) 방법을 포함하여 수십 년 동안 활발한 연구 분야였다. 사전 훈련된 단어 임베딩은 현대 NLP 시스템의 필수 요소로, 처음부터 학습한 임베딩에 비해 상당한 개선을 제공한다(Turian et al., 2010). 단어 임베딩 벡터를 사전 훈련하기 위해 '왼쪽에서 오른쪽으로 언어 모델링' 목표와 '왼쪽 및 오른쪽 맥락에서 잘못된 단어를 구별하는' 목표가 사용되었다(Mnih and Hinton, 2009).
이러한 접근 방식은 sentence embeddings (Kiros et al., 2015; Logeswaran and Lee, 2018) 또는 paragraph embeddings (Le and Mikolov, 2014)으로 일반화되었다. 문장 표현을 훈련하기 위해 이전 작업에서는 목표를 사용하여 후보 다음 문장의 순위를 매겼으며(Jernite et al., 2017; Logeswaran and Lee, 2018), 이전 문장의 표현이 주어진 다음 문장 단어의 왼쪽에서 오른쪽으로 생성하거나(Kiros et al., 2015), 노이즈 제거 자동 인코더에서 파생된 목표의 순위를 매기는 데 사용했다.(Hill et al., 2016). ELMo와 그 이전 모델(Peters et al., 2017, 2018a)은 왼쪽에서 오른쪽으로, 오른쪽에서 왼쪽으로 언어 모델에서 상황에 민감한 특징을 추출한다. 각 토큰의 상황별 표현은 왼쪽에서 오른쪽으로, 오른쪽에서 왼쪽으로 표현을 연결하는 것이다. 상황별 단어 임베딩을 기존 작업별 아키텍처와 통합할 때, ELMo는 질문 답변(Rajpurkar et al., 2016), 감정 분석(Socher et al., 2013), 명명된 개체 인식(Tjong 김상 및 DeMeulder, 2003)을 포함한 여러 주요 NLP 벤치마크(Peters et al., 2018a)에 대한 최신 기술을 발전시켰다. Melamud et al.(2016)은 LSTM을 사용하여 왼쪽 및 오른쪽 컨텍스트에서 단일 단어를 예측하는 작업을 통해 상황별 표현을 학습할 것을 제안했다. ELMo와 유사하게, LSTM은 feature-based이며 양방향성이 깊지 않다.
Unsupervised Fine-tuning Approaches
첫 번째 작업은 레이블이 지정되지 않은 텍스트에서 단어 임베딩 매개변수만 사전 학습했다(Collobert and Weston, 2008). 최근에는 레이블이 지정되지 않은 텍스트를 통해 contextual token representation을 생성하고, supervised downstream task에서 fine-tunin 하는 방식이 제안되었다(Dai and Le, 2015; Howard and Ruder, 2018; Radford et al., 2018). 이러한 접근 방식의 장점은 적은 수의 파라미터가 학습된다는 것이다. 이러한 이점 때문에 OpenAI GPT(Radford et al., 2018)는 GULE 벤치마크의 많은 문장 수준 작업에서 최첨단 결과를 달성했다(Wang et al., 2018a).
Transfer Learning from Supervised Data
자연어 추론(Connau et al., 2017) 및 기계 번역(McCann et al., 2017)과 같이 대규모 데이터 세트가 있는 지도 작업에서 효과적인 transfer learning을 수행하는 작업이 있다. 컴퓨터 비전 연구는 또한 이미지넷으로 사전 학습된 모델을 미세 조정하는 것이 효과적인 레시피인 대규모 사전 학습 모델의 transfer learning의 중요성을 입증했다(Deng et al., 2009; Yosinski et al., 2014).
BERT
이 섹션에서는 BERT와 BERT의 세부 구현에 대해 소개한다. 프레임워크에는 pre-training(사전훈련)과 fine-tunning(미세조정)의 두 단계가 있다. 사전 훈련 중에는 레이블이 지정되지 않은 모델에 대해 모델을 훈련한다. fine-tunning을 위해 BERT 모델은 먼저 사전 훈련된 매개 변수로 초기화되고 모든 매개 변수는 레이블이 지정된 데이터를 사용하여 미세 조정된다.
downstream task에서 사용하는 모델은 초기에는 동일한 사전 훈련된 매개변수를 가지지만 결국 다른 미세 조정된 모델을 가지게 된다. pre-trainied된 모델과 fine-tuned된 모델 사이의 구조적 차이는 아주 작다.
Model Architecture
BERT의 모델 아키텍처는 Vaswani et al.(2017)에 설명된 원본 구현을 기반으로 하는 다층 양방향 트랜스포머 인코더이며 tensor2tensor 라이브러리에 공개되었다. 트랜스포머의 사용이 일반화되고 구현이 원본과 거의 동일하기 때문에 모델 아키텍처에 대한 자세한 배경 설명은 생략한다.
이번 논문에서 레이어 수(=transformer block)를 L, hidden size를 H, self-attention head의 수를 A로 표시한다.
또한 아래 두 가지 모델 크기에 대한 결과를 보고한다.
BERTBASE(L=12, H=768, A=12, Total Parameters=110M) 및 BERTLAGE(L=24, H=1024, A=16, Total Parameters=340M).BERTBASE는 비교를 위해 OpenAI GPT와 동일한 모델 크기로 선택되었다.
그러나 결정적으로 BERT 트랜스포머는 bidirectional self-attention 를 사용하는 반면 GPT 트랜스포머는 모든 토큰이 자신의 왼쪽의 컨텍스트에만 참조 할수있는 제한된 self-attention 를 사용한다.
Input/Output Representations
표현 BERT가 다양한 다운스트림 작업을 처리하도록 하기 위해 입력 표현은 단일 문장과 한 쌍의 문장(예: h Queest, Answeri)을 하나의 토큰 시퀀스로 명확하게 표현할 수 있다. 이 작업 전반에 걸쳐 "문장"은 실제 언어 문장이 아니라 임의의 연속 텍스트 범위일 수 있다. "시퀀스"는 BERT에 입력되는 토큰 시퀀스를 나타내며, 이는 단일 문장 또는 두 문장이 함께 포장될 수 있다.
여기에선 30,000개의 토큰 어휘를 가진 WordPiece 임베딩(Wu et al., 2016)을 사용한다. 모든 시퀀스의 첫 번째 토큰은 항상 특수 분류 토큰([CLS])이다. 이 토큰에 해당하는 최종 숨겨진 상태는 분류 작업을 위한 집합 시퀀스 표현으로 사용된다. 문장 쌍은 단일 시퀀스로 함께 포장된다. 두 문장을 하나의 시퀀스로 표현하기 위해서는 두 가지 단계가 있다.
첫째, 특수 토큰([SEP])으로 구분한다.
둘째, 문장 A에 속하는지 문장 B에 속하는지를 나타내는 모든 토큰에 학습된 임베딩을 추가한다.
위 방식으로 생성한 입력 임베딩을 E로 나타낸다. 특수 [CLS] 토큰의 벡터는 C ∈ R^H이고, 최종 숨겨진 벡터는 Ti ∈ R^H이다. 주어진 토큰에 대해 입력 표현은 해당 토큰의 세그먼트와 해당 토큰의 위치 임베딩(position Emvbegging)을 합산하여 생성된다.
Pre-training BERT
Peters et al. (2018a) 및 Radford et al. (2018)과는 달리 BERT를 사전 학습하기 위해 기존의 좌에서 우 또는 우에서 좌 언어 모델을 사용하지 않는 대신 이 섹션에서 설명하는 두 가지 unsupervised task를 사용하여 BERT를 사전 학습한다.
Task #1: Masked LM
직관적으로, 심층 양방향 모델은 좌우 모델 또는 좌우 모델과 좌우 모델의 얕은 연결보다 엄격하게 더 강력하다고 믿는 것이 합리적이다. 불행히도 표준 조건 언어 모델은 왼쪽에서 오른쪽 또는 오른쪽에서 왼쪽으로만 훈련될 수 있다. 왜냐하면 Bidirectional 하게 처리하면 각 단어가 간접적으로 "자체를 볼 수 있고" 모델은 multi layered 구조에서 대상 단어를 예측할 수 있기 때문이다. 심층 양방향 표현을 훈련하기 위해, 입력 토큰의 일부 비율을 무작위로 마스킹한 다음, 마스킹된 토큰을 예측한다. (masked LM (MLM)) 모든 실험에서 각 시퀀스의 모든 워드피스 토큰의 15%를 무작위로 마스킹한다.
이를 통해 양방향 사전 훈련 모델을 얻을 수 있지만, 단점은 미세 조정 중에 [MASK] 토큰이 나타나지 않기 때문에 사전 훈련과 미세 조정 간에 불일치가 발생한다는 것이다. 이를 완화하기 위해 마스킹할 단어를 항상 실제 [MASK] 토큰으로 대체하지는 않고, 15% 중 80%는 [MASK]로, 10%는 랜덤 토큰으로, 10%는 기존의 토큰을 사용한다. cross-entropy loss를 사용해서 기존의 토큰을 예측하게 한다.
Task #2 : Next Sentence Prediction (NSP)
질문 답변(QA) 및 자연어 추론(NLI)과 같은 많은 중요한 downstream task는 두 문장 간의 관계를 이해하는 것을 기반으로 한다. 문장 관계를 이해하는 모델을 훈련하기 위해 다음 문장 예측 작업을 위해 훈련한다. 이때, 각 사전 훈련 예제에서 문장 A와 B를 선택할 때 B의 50%가 A(IsNext로 레이블이 지정됨)를 따르는 실제 다음 문장이고, 50%는 말뭉치(NotNext로 레이블이 지정됨)의 무작위 문장이다. 그림 1에서 볼 수 있듯이 C는 다음 문장 예측(NSP)에 사용된다.
섹션 5.1에서 이 작업을 위한 사전 훈련이 간단함에도 불구하고 QA와 NLI 모두에 매우 유익하다는 것을 입증한다. NSP 작업은 Jernite et al.(2017)과 Logeswaran and Lee(2018)에서 사용된 표현 학습 목표와 밀접한 관련이 있다. 그러나 이전 작업에서는 문장 임베딩만 다운스트림 작업으로 전송되며, 여기서 BERT는 모든 매개변수를 전송하여 최종 작업 모델 매개변수를 초기화한다.
Pre-traing data
사전 훈련 절차는 언어 모델 사전 훈련에 대한 기존 문헌을 따른다. 사전 훈련 코퍼스에는 BooksCorpus (800M 단어)(Zhu et al., 2015)와 영어 Wikipedia (2,500M 단어)를 사용한다. Wikipedia의 경우 텍스트 구절만 추출하고 목록, 표 및 헤더는 무시한다. Word Benchmark(Chelba et al., 2013)는 긴 연속 시퀀스를 추출하기 위해 사용한다.
Fine-tunning BERT
트랜스포머의 self-attention 메커니즘을 사용하면 BERT가 적절한 입력과 출력을 스왑하여 단일 텍스트 또는 텍스트 쌍과 관련된 많은 다운스트림 작업을 모델링할 수 있기 때문에 fine tunning이 간단하다. 텍스트 쌍과 관련된 응용 프로그램의 경우 일반적인 패턴은 Parikh et al. (2016); Seo et al. (2017)과 같이 bidirectional cross attention(양방향 교차 주의)를 적용하기 전에 텍스트 쌍을 독립적으로 인코딩한다. 대신 BERT는 self-attention 메커니즘을 사용하여 이 두 단계를 통합한다. 각 작업에 대해 작업별 입력과 출력을 BERT에 연결하고 모든 매개 변수를 end-to-end로 fine tunning 하기만 하면 된다. 입력 시 사전 학습의 문장 A와 문장 B는 (1) 문장 쌍의 의역, (2) 가설-전제 쌍의 수반, (3) 질문-문장 쌍의 응답, (4) 텍스트 분류 또는 시퀀스 태깅의 퇴화된 텍스트-∅ 쌍과 유사합니다. 출력 시 Token representation 은 시퀀스 태깅 또는 질문 응답과 같은 토큰 수준 작업을 위한 출력 레이어로, [CLS] 표현은 수반 또는 감정 분석과 같은 분류를 위한 출력 레이어로 공급된다. pre traing에 비해 fine tunning 이 상대적으로 적은 비용이 든다. 논문의 모든 결과는 동일한 사전 학습 모델에서 시작하여 단일 클라우드 TPU에서 최대 1시간 또는 GPU에서 몇 시간 안에 복제할 수 있다. ( 섹션 4의 해당 하위 섹션에서 작업별 세부 정보를 설명한다. 자세한 내용은 부록 A.5에서 확인할 수 있다.)
Experiments
BERT fine-tuning을 이용한 11개의 NLP task의 결과이다.
GLUE, SQuAD v1.1, SQuAD v2.0, SWAG, ABlation Studies를 다루고 있다.
Ablation Studies
이 섹션에서는 BERT의 상대적 중요성을 더 잘 이해하기 위해 BERT의 여러 측면에 대한 절제 실험을 수행한다. (추가 절제 연구는 부록 C에서 찾을 수 있다.)
Effect of Pre-training Tasks
BERT_BASE와 정확히 동일한 pretraining data, fine-tuning scheme, 하이퍼 파라미터를 사용하여 두 가지 사전 훈련 목표를 평가함으로써 BERT의 심층 양방향성의 중요성을 입증한다.
- No NSP
masked LM(MLM)을 사용하여 훈련되지만 NSP(다음문장예측)이 없는 모델이다.
이 경우 QNLI, MNLI, SQuAD 1.1에서 성능이 저하되었다. - LTR & No NSP
MLM이 아닌 LTR(Left-to-Right)LM을 사용하여 훈련된 왼쪽 context 전용 모델이다. 또한 NSP 작업 없이 pre trained 되었다. 이는 OpenAI의 GPT와 유사하지만 더 큰 훈련 데이터셋, input representation, fine-tunning scheme를 사용한다.
모든 task에서 MLM에 비해 성능이 떨어졌다.
MRPC, SQuAD에서 크게 저하했다.
임의로 초기화된 BiLSTM을 추가했을때 SQuAD가 향상되는것을 보아( pre-trained bidirectional model에 비해서는 떨어지지만) bidirectional한 요소를 제외해서 나타난 성능 저하임을 알 수 있다.
또한 ELMo처럼 별도의 LTR 및 RTL 모델을 훈련하고 각 토큰을 두 모델의 연결로 표현하는 것도 가능하다. 그러나 (a) 단일 양방향 모델보다 2배 더 많은 비용이 든다. (b) RTL 모델은 질문에 대한 답을 조건으로 지정할 수 없기 때문에 QA와 같은 작업에서는 직관적이지 않다. (c) 모든 계층에서 왼쪽 및 오른쪽 컨텍스트를 모두 사용할 수 있기 때문에 심층 양방향 모델보다 훨씬 덜 강력하다.
Effect of Model Size
이 섹션에서는 모델 크기가 fine-tunning 작업 정확도에 미치는 영향을 살펴본다. 이전에 설명한 것과 동일한 하이퍼파라미터와 훈련 절차를 사용하면서 서로 다른 수의 레이어, hidden units 및 d attention heads를 사용하여 여러 BERT 모델을 훈련했다.
선택한 GULE 작업에 대한 결과는 표 6에 나와 있다.
이 표에서는 fine-tunning을 무작위로 다시 시작하여 5번의 평균 Dev Set 정확도를 보고한다. 레이블이 지정된 훈련 예제가 3,600개에 불과하고 사전 훈련 작업과 상당히 다른 MRPC의 경우에도, 더 큰 모델이 4개의 데이터 세트 모두에서 큰 정확도를 보인다. 기존 문헌에 비해 이미 상당히 큰 모델 위에서 이러한 상당한 개선을 달성할 수 있다는 것도 알 수 있다. 예를 들어, Vaswani 등(2017)에서 탐색한 가장 큰 트랜스포머는 인코더에 대한 100M 매개변수를 사용한 (L=6, H=1024, A=16)이며, 문헌에서 찾은 가장 큰 트랜스포머는 235M 매개변수를 사용한 (L=64, H=512, A=2)이다 (Al-Rfou 등, 2018). 이와 대조적으로 BERTBASE에는 110M 매개변수가 포함되어 있고 BERTLAGE에는 340M 매개변수가 포함되어 있다.
모델 크기를 늘리면 기계 번역 및 언어 모델링과 같은 대규모 작업이 지속적으로 개선될 것이라는 것은 오랫동안 알려져 왔으며, 이는 표 6에 표시된 보류된 훈련 데이터의 LM perplexity에서 입증된다. 모델이 충분히 사전 훈련을 받았다면 극단적인 모델 크기로 확장하는 것도 매우 작은 규모의 작업에서 큰 개선으로 이어진다. Peters et al. (2018b)은 사전 훈련된 bi-LM 크기를 2층에서 4층으로 늘리는 다운스트림 작업에 미치는 영향에 대해 혼합된 결과를 제시했고, Melamud et al. (2016)은 숨겨진 차원 크기를 200에서 600으로 늘리는 것이 도움이 되었지만, 1,000으로 더 늘리는 것은 더 이상의 개선을 가져오지 못했다고 언급했다. 이 두 가지 이전 작업 모두 feature-based 방식을 사용했는데, 모델이 다운스트림 작업에서 직접 fine-tuning되고 무작위로 초기화된 매우 적은 수의 추가 매개 변수만 사용할 때 작업별 모델은 다운스트림 작업 데이터가 매우 작은 경우에도 더 크고 표현력 있는 사전 훈련된 표현의 이점을 얻을 수 있다고 가정한다.
Feature-based Approach with BERT
지금까지 제시된 모든 BERT 결과는 사전 학습된 모델에 간단한 분류 계층을 추가하고 모든 매개 변수를 다운스트림 작업에서 공동으로 fine-tunning하는 fine-tunning 접근 방식을 사용했다. 그러나 사전 학습된 모델에서 고정 특징을 추출하는 feature-based 접근 방식에는 특정한 이점이 있다.
첫째, 모든 작업을 트랜스포머 인코더 아키텍처로 쉽게 표현할 수 있는 것은 아니므로 task-specific model 아키텍처를 추가해야한다.
둘째, 비싼 훈련 데이터 표현을 한 번 사전 계산한 다음 이 표현 위에 더 저렴한 모델로 많은 실험을 실행하는 데 컴퓨팅 비용을 절감한다.
이 섹션에서는 CoNLL-2003 Named Entity Recognition(NER) 작업에 BERT를 적용하여 두 가지 접근 방식을 비교한다 (Tjong Kim Sang and De Meulder, 2003) . BERT에 대한 입력에서는 case-preserving WordPiece 모델을 사용하며 데이터가 제공하는 최대 문서 컨텍스트를 포함한다. 표준 관행에 따라 이를 태깅 작업으로 공식화하지만 출력에 CRF 계층을 사용하지 않는다. NER 레이블 세트 위의 토큰 수준 분류기에 대한 입력으로 첫 번째 하위 토큰의 표현을 사용한다. fine-tunning 접근 방식을 제거하기 위해 BERT의 매개 변수를 fine-tunning하지 않고 하나 이상의 계층에서 활성화를 추출하여 feature-based 접근 방식을 적용한다. 이러한 컨텍스트 임베딩은 분류 계층 전에 무작위로 초기화된 2계층 768차원 BiLSTM에 대한 입력으로 사용된다. 결과는 표 7에 나와 있다.
이는 BERT가 fine-tunning 및 feature-based 접근 방식 모두에 효과적이라는 것을 보여준다.
Conclusion
언어 모델을 사용한 transfer learning 으로 인한 최근의 경험적 개선은 풍부한 unsupervised pre-training이 많은 언어 이해 시스템의 필수적인 부분이라는 것을 보여주었다. 특히, 이러한 결과는 리소스가 적은 작업도 deep unidirectional architectures (심층 단방향 아키텍처)의 이점을 누릴 수 있게 해준다. 논문의 주요 기여는 이러한 발견을 deep bidirectional architectures (심층 양방향 아키텍처)로 더욱 일반화하여 동일한 사전 훈련된 모델이 광범위한 NLP 작업을 성공적으로 처리할 수 있도록 하는 것이다.
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
https://arxiv.org/abs/1810.04805
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
We introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models, BERT is designed to pre-train deep bidirectional representations from unla
arxiv.org
Huggingface
https://huggingface.co/docs/transformers/model_doc/bert
BERT
Although the recipe for forward pass needs to be defined within this function, one should call the Module instance afterwards instead of this since the former takes care of running the pre and post processing steps while the latter silently ignores them.
huggingface.co
참고한 논문 리뷰
https://misconstructed.tistory.com/43
[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding (NAACL 2019)
2019년 구글에서 발표한 BERT에 대한 논문이다. 논문의 원본은 여기서 볼 수 있다. # Introduction Pre-trained Language Model은 자연어 처리 task의 성능을 향상시킬 수 있다. PLM(pre-trained language model)을 적용하
misconstructed.tistory.com
[NLP | 논문리뷰] BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding 하편
상편을 쓰고 귀찮아하는 제 표정 절대 아닙니다. > 앞의 WordPiece와 BERT 상편에서 이어지니 보고 오시는 것을 개인적으로 추천드립니다. 🔬 Experiment and Result BERT는 총 11개의 NLP 분야에서 학습을 시
velog.io