모델 |
모델 사이즈 |
학습 코퍼스 |
설명 |
BERT_multi (Google) |
vocab=10만+ - 12-layers |
다국어 |
BERT original paper에서 공개한 multi-lingual BERT
[벤치마크 성능] - [텍스트분류] NSMC Acc 87.07 - [개체명인식] Naver-NER F1 84.20 - [기계 독해] KorQuAD 1.0 EM 80.82%, F1 90.68% - [의미역결정] Korean Propbank F1 81.85% |
KorBERT _Morphology _WordPiece (ETRI) |
[Morphology] vocab = 30,349 [WordPiece] vocab = 30,797
- 12-layers |
기사, 백과사전 - 23GB - 4.7B 형태소 |
홈페이지 >> https://aiopen.etri.re.kr/service_dataset.php * ETRI 형태소분석 API 사용
[벤치마크 성능 - Morphology] - [기계 독해] KorQuAD 1.0 EM 86.40%, F1 94.18% - [의미역결정] Korean Propbank F1 85.77%
[벤치마크 성능 - WordPiece] - [기계 독해] KorQuAD 1.0 EM 80.70%, F1 91.94% - [의미역결정] Korean Propbank F1 85.10%
|
KoBERT (SKT) |
vocab = 8,002 - 12-layers |
위키백과 - 5M sents - 54M words |
github>> https://github.com/SKTBrain/KoBERT
[벤치마크 성능 - WordPiece] - [텍스트분류] NSMC Acc 89.63 - [개체명인식] Naver-NER F1 86.11 |
HanBERT (TwoBlock AI) |
vocab = 54,000 - 12-layers
|
기본코퍼스 - 70GB - 350M sents - 11.3B 형태소 +특허문서 - 75GB - 270M sents - 15B 형태소 |
홈페이지 >> TwoBlockAI github >> https://github.com/monologg/HanBert-Transformers
[벤치마크 성능 - WordPiece] - [텍스트분류] NSMC Acc 90.16 - [개체명인식] Naver-NER F1 87.31 |
LMkor |
vocab = 42,000 |
총 70GB 텍스트 - 위키/나무위키 - 주요 커머스 리뷰 1억개 + 블로그형 웹사이트 2000만개 - 모두의 말뭉치 |
github >> https://github.com/kiyoungkim1/LMkor
다양한 사전학습 기법을 활용한 한국 언어모델 공개 - albert-kor-base (12 layers) - bert-kor-base (12 layers) - funnel-kor-base (6-6-6 layers) - electra-kor-base (12 layers)
[벤치마크 성능 - 홈페이지 참고] |
KalBERT |
vocab = 47,473 - 24-layers |
총 6GB 텍스트 - 위키백과 - KAIST book corpus - 세종코퍼스 |
github >> https://github.com/MrBananaHuman/KalBert
[벤치마크 성능] - [기계 독해] KorQuAD 1.0 EM 81.26%, F1 90.01% |
DistilKoBERT |
3-layers |
위키,나무위키,뉴스 (10GB) |
github >> https://github.com/monologg/DistilKoBERT
SKT Ko-BERT의 경량화 버전 [벤치마크 성능] - [텍스트분류] NSMC Acc 88.41 - [개체명인식] Naver-NER F1 84.13 - [기계 독해] KorQuAD 1.0 EM 54.12%, F1 77.80%
|
KR-BERT _character _sub-character |
vocab - 16,424 - 12,367 |
2.47GB - 20M sents - 233M words |
github>> https://github.com/snunlp/KR-BERT |