(솔트룩스 세미나) BERT기반 자연언어처리 – 양승원 연구위원님

2022. 5. 20. 17:18machine learning

728x90
반응형

BERT기반 자연언어처리 양승원 연구위원님

형태소분석 최소단위의 의미있는 term 추출

 

검색의 한계: 형태소분석 오류.

ex) 분양가상한제 -> 분양 가상 한제(X), 분양가 상한제(O)

분석의 한계: 형태소/ 개체명/ 키워드 인식오류.

 ex) 서울시/LC -> 서울시/OG. 도널드 트럼프, 트럼프 대통령을 각각 따로 인식

TEXT 딥러닝 추세 – BERT

Word2Vec: 주변단어를 추론하는 방식으로 해당 단어를 도출.

1)    단어간 유사도 측정용이.

2)    단어간 관계파악 용이

3)    벡터연산을 통한 추론

4)    단어의 subword Information 무시

5)    해당 단어의 vocab에 없다면 결과도출 불가(OOV)

 

FastText: Word2Vec과 비슷하지만, OOV subword이슈 해결.

 

1)    Word2Vec과 유사방식, n-gram활용

2)    입력단어가 vocab활용, 없으면 n-gram벡터

3)    출연빈도가 낮은 단어대상으로도 작동.

4)    OOV적용 가능.

 

 

 

 

BERT: context embedding, 문장이 임베딩 위에서 word vector가 자체적으로 vector 생성된다.

BERT 최대특징:

Word piece tokenizing – 모든 문서에 대한 빈도수를 계산해 의미 패턴으로 잘라서 tokenizing하는 방법론.

Ex) 경찰서: ## ## ## -> ##경찰 ## -> 경찰 ##

   경찰관: ##경찰 ## -> 경찰 ##

 

BERT 결과 성능비교: 기존 F1 score 평균 81% -> 87%

BERT이후의 모델 – DistilVert, RoBERT, XLNet…

ALBERT (A Lite BERT for self-supervised model)

1)    Parameter의 감소

2)    계층간 매개변수를 공유

3)    문장간 일관성 예측.

여전히 문제점: text 데이터 전처리 필요성.

대용량 데이터 학습을 위한 막대한 시간과 비용소비.

새로운 특정 도메인에 대한 증분학습이 거의 불가능. 일반적으로 의료, 법률.

728x90
반응형