AI

BERT, KoBERT 자연어 처리 모델

✿(๑❛ڡ❛๑)✿ 2024. 4. 2. 17:20
728x90
SMALL

 

BERT란?

BERT(Bidirectional Encoder Representations from Transformers)는 2018년에 구글이 공개한 사전 훈련된 모델입니다.

이전의 자연어 처리 모델과 달리 텍스트를 양방향으로 확인하여 자연어를 처리합니다. 이때문에 매우 높은 정확도를 나타내고 있어요.

트랜스포머(Transformer) 아키텍처를 기반으로 하는 언어 모델로 자신의 사용 목적에 따라 파인튜닝(finetuning)이 가능해요.

 

https://github.com/google-research/bert

 

GitHub - google-research/bert: TensorFlow code and pre-trained models for BERT

TensorFlow code and pre-trained models for BERT. Contribute to google-research/bert development by creating an account on GitHub.

github.com

 

 

 

KoBERT란?

KoBERT는 이러한 기존 BERT의 한국어 성능 한계를 극복하기 위해 개발되었습니다. 

SKT Brain에서 배포하였고 한국어 버전의 자연어 처리 모델이라고 할 수 있어요.

 

위키피디아, 뉴스등에서 수집한 수백만개의 한국어 문장으로 대규모말뭉치(corpus)를 학습하였으며, 한국어의 불규칙한 언어 변화의 특성을 반영하기 위해 데이터 기반 토큰화(Tokenization) 기법을 적용하여 기존 대비 27%의 토큰만으로 2.6% 이상의 성능 향상을 이끌어 냈다 - SKtelecom KoBERT 설명 중

KoBERT는 pre-trained 되었기 때문에, output layer만 추가하는 등 fine-tuning을 진행하여 목적에 맞는 결과를 낼 수 있습니다.

KoBERT는 다양한 자연어처리 task에 사용될 수 있습니다.

  1. 감성 분석: 제품 리뷰, 영화 리뷰 등에서 긍정적 또는 부정적인 의견 분석.
  2. 문장 분류: 뉴스 기사, 문서 등을 주제나 카테고리별로 분류.
  3. 명사 추출: 문장에서 주요 명사나 키워드 추출.
  4. 질문 응답 시스템: 자연어 질문에 대해 정확한 답변 제공.

https://github.com/SKTBrain/KoBERT

 

GitHub - SKTBrain/KoBERT: Korean BERT pre-trained cased (KoBERT)

Korean BERT pre-trained cased (KoBERT). Contribute to SKTBrain/KoBERT development by creating an account on GitHub.

github.com

 

 

 

 

 

 

 

출처

https://sktelecom.github.io/project/kobert/ 

 

KoBERT

Korean BERT (Bidirectional Encoder Representations from Transformers)

sktelecom.github.io

https://wikidocs.net/229878

 

KoBERT: SKT Brain에서 배포한 한국어 자연어 처리 모델

KoBERT 라이브러리는 한국어 자연어 처리를 위해 특별히 최적화된 BERT 기반 모델입니다. Google의 BERT(Bidirectional Encoder Represent…

wikidocs.net

 

728x90
LIST