자연어처리 프로세스 - 형태소분석, 구문분석, 개체명분석, 화행/의도분석

2021. 4. 21. 17:22text analytics

728x90
반응형

 

가. 형태소 분석 

국립국어원에서 배포한 세종 코퍼스를 기본적인 기계학습 (형태소분석 모델)에 이용.

- 품사 분석 , 단어를 기능/형태/의미에 따라서 명사, 대명사, 수사, 조사 등등으로 분류

POS (Part of Speech Tagging)

 

나. 구문 분석

문장을 형태소, 명사구 등의 구성 성분으로 분해하여 각 구성 성분 간의 의존관계와 역할을 분석.

구문 분석은 의존 관계를 구단위로 분석하는 '구 구조 문법 기반 구문 분석'에서 구성 성분 단위로 분석하는 '의존 문법 기반 구문 분석'으로 발전.

각 언어별 특성에 따라 한국어는 CKY (Cocke-Younger-Kasami) 알고리즘 방법이, 영어는 MST (Maximum Spanning Tree) 알고리즘 방법이 사용됨.

국립국어원에서 구축한 세종코퍼스를 한국어 구문 분석에 많이 이용하고 있으며, 구문 분석에 딥러닝을 적용하려는 연구도 시되되고 있음.

구문분석 시스템 구성도

 

구문분석 (Dependency Parsing)
구문분석

다. 개체명분석 (Named Entity Recognition)

개체명인식은 인명(Person), 지명(Location), 기관명(Organization) 등 의미(개체명 태그)를 문장 구성성분에 부여하는 것으로 정보 추출, 정보 검색, 질의응답 (Question Answer) 등을 위해 사용됨.

커스터마이징한 개체명태그 예

개체명 인식을 위해서는 전통적으로 순서적인식 (Sequence Labeling) 에서 좋은 성능을 발휘하는 CRF(Conditional Random Field ) 알고리즘을 많이 사용하였으나 최근에는 딥러닝을 적용하여 개선한 LSTM (Long Short Term Memory)-CRF의 방법이나 LSTM-RNN(Recurrent Neural Network)을 널리 사용하고 있음.

딥러닝을 이용한 개체명인식 시스템

 

우리 회사 솔루션에서는 영역개체추출보다는 개체명분석

라. 화행 (Speech Act), 의도(Intention) 분석

자연어처리에서 화행분석은 주로 발화에 나타난 범용적인 의도를 나타내며, 영역 지식이 더해진 의도를 구체적인 의도를 알아내는 것을 의도 분석이라고 구분하는 것이 일밙거임.

화행 의도 분석은 개체명 분석이나 정보분류 방법과 유사한 프로세스로 구성된다.

또한 화행 의도분석은 주로 대화처리를 위해 사용되기 때문에 대화가 사용될 영역이나 응답 형태에 따라 각각에 적합한 화행 의도 정보 체계를 정의하여야 한다.

728x90
반응형