ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 한국어 언어모델: Korean Pre-trained Language Models
    NLP 2021. 11. 8. 11:12
    728x90
    반응형

    Encoder Only Model (BERT 계열)

    모델 모델 사이즈 학습 코퍼스 설명
    BERT_multi
    (Google)
    vocab=10만+
    - 12-layers
    다국어 BERT original paper에서 공개한 multi-lingual BERT

    [벤치마크 성능]
    - [텍스트분류] NSMC Acc 87.07
    - [개체명인식] Naver-NER F1 84.20
    - [기계 독해]   KorQuAD 1.0 EM 80.82%, F1 90.68%
    - [의미역결정] Korean Propbank F1 81.85%
    KorBERT
    _Morphology

    _WordPiece
    (ETRI)
    [Morphology]
    vocab = 30,349
    [WordPiece]
    vocab = 30,797

    - 12-layers
    기사, 백과사전
    - 23GB
    - 4.7B 형태소
    홈페이지 >> https://aiopen.etri.re.kr/service_dataset.php
    * ETRI 형태소분석 API 사용

    [벤치마크 성능 - Morphology]

    - [기계 독해]   KorQuAD 1.0 EM 86.40%, F1 94.18%
    - [의미역결정] Korean Propbank F1 85.77%

    [벤치마크 성능 - WordPiece]
    - [기계 독해]   KorQuAD 1.0 EM 80.70%, F1 91.94%
    - [의미역결정] Korean Propbank F1 85.10%
    KoBERT
    (SKT)
    vocab = 8,002
    - 12-layers
    위키백과
    - 5M sents
    - 54M words
    github>> https://github.com/SKTBrain/KoBERT

    [벤치마크 성능 - WordPiece]
    - [텍스트분류] NSMC Acc 89.63
    - [개체명인식] Naver-NER F1 86.11
    HanBERT
    (TwoBlock AI)
    vocab = 54,000
    - 12-layers

    기본코퍼스
    - 70GB
    - 350M sents
    - 11.3B 형태소
    +특허문서
    - 75GB
    - 270M sents
    - 15B 형태소
    홈페이지 >> TwoBlockAI
    github >> https://github.com/monologg/HanBert-Transformers

    [벤치마크 성능 - WordPiece]
    - [텍스트분류] NSMC Acc 90.16
    - [개체명인식] Naver-NER F1 87.31
    LMkor vocab = 42,000 총 70GB 텍스트
    - 위키/나무위키
    - 주요 커머스 리뷰 1억개 + 블로그형 웹사이트 2000만개 
    - 모두의 말뭉치
    github >> https://github.com/kiyoungkim1/LMkor

    다양한 사전학습 기법을 활용한 한국 언어모델 공개

      - albert-kor-base (12 layers)
      - bert-kor-base (12 layers)
      - funnel-kor-base (6-6-6 layers)
      - electra-kor-base (12 layers)

    [벤치마크 성능 - 홈페이지 참고]
    KalBERT vocab = 47,473
    - 24-layers
    총 6GB 텍스트
    - 위키백과
    - KAIST book corpus
    - 세종코퍼스
    github >> https://github.com/MrBananaHuman/KalBert

    [벤치마크 성능]
    - [기계 독해]   KorQuAD 1.0 EM 81.26%, F1 90.01%
    DistilKoBERT 3-layers 위키,나무위키,뉴스 (10GB) github >> https://github.com/monologg/DistilKoBERT

    SKT Ko-BERT의 경량화 버전
    [벤치마크 성능]
    - [텍스트분류] NSMC Acc 88.41
    - [개체명인식] Naver-NER F1 84.13
    - [기계 독해]   KorQuAD 1.0 EM 54.12%, F1 77.80%

    KR-BERT
    _character
    _sub-character
    vocab 
    - 16,424
    - 12,367
    2.47GB
    - 20M sents

    - 233M words
    github>> https://github.com/snunlp/KR-BERT

     

    Decoder Only Model (GPT 계열)

    모델 모델 사이즈 학습 코퍼스 설명
    KoGPT2
    (SKT)
    vocab = 51,200
    - 12-layers
    40GB github >> https://github.com/SKT-AI/KoGPT2

    * 생성 태스크를 위한 모델로, 이모지 / 이모티콘이 사전에 포함
    (예) 😀😁😆😅🤣, .. , :-):)-)(-:

    [데모 코드 - githib에서 확인]
    - 한국어 chit-chat 챗봇
    - 데이터 생성 어플리케이션
    - 생성 요약
    LMkor vocab = 42,000
    - 12-layers
    총 70GB 텍스트
    - 위키/나무위키
    - 주요 커머스 리뷰 1억개 + 블로그형 웹사이트 2000만개 
    - 모두의 말뭉치
    github >> https://github.com/kiyoungkim1/LMkor

    다양한 사전학습 기법을 활용한 한국 언어모델 공개

      - gpt3-kor-small_based_on_gpt2 (12 layers)

    * 최대 처리 가능한 토큰 개수가 2,048개
    * GPT2를 기반으로 학습, few-shot 학습 위해 인풋 길이를 늘린 것
    * 홈페이지에서 GPT3 generation 데모 실행 가능

     

    Encoder-Decoder Model

    모델 모델 사이즈 학습 코퍼스 설명
    LMkor vocab = 42,000
    - Enc: 12-layers
    - Dec: 12-layers
    총 70GB 텍스트
    - 위키/나무위키
    - 주요 커머스 리뷰 1억개 + 블로그형 웹사이트 2000만개 
    - 모두의 말뭉치
    github >> https://github.com/kiyoungkim1/LMkor

    다양한 사전학습 기법을 활용한 한국 언어모델 공개

      - bertshared-kor-base (12 layers)

    * bert-kor-base로 파라미터 초기화 후 encoder-decoder 학습
    * 텍스트 요약 태스크에 대해 학습함
    * 홈페이지에서 텍스트 요약 코드 실행 가능
    KoBART
    (SKT)
    vocab = 30,000
    - Enc: 6-layers
    - Dec: 6-layers
    위키백과, 뉴스, 책, 모두의말뭉치, 청화대 국민청원 데이터 등

    5M + sents
    홈페이지 >> https://reposhub.com/python/natural-language-processing/SKT-AI-KoBART.html#kobart

    * 생성 태스크를 위한 모델로, 이모지 / 이모티콘이 사전에 포함
    (예) 😀😁😆😅🤣, .. , :-):)-)(-:

    [데모 코드 - 홈페이지에서 확인]
    - 텍스트 요약
    Asian BART vocab = 80,000
    - Enc: 12-layers
    - Dec: 12-layers
    - github >> https://github.com/hyunwoongko/asian-bart

    한국어 이외에도 영어, 중국어, 일본어 모델 지원

     

    728x90
    반응형
Designed by Tistory.