(솔트룩스 세미나) 딥러닝기반의 지식학습과 심층 질의응답 – 정용일 연구위원님

2022. 5. 20. 17:24machine learning

728x90
반응형

딥러닝기반의 지식학습과 심층 질의응답 정용일 연구위원님

 

지식그래프 구조화 형태의 데이터. 비정형을 정형화하는 과정에 자연어 처리 과정이 필수적으로 사용된다.

한국어 필수 코어지식: 2~3억 트리플.

(출처)위키피디아, DBPedia -> Knowledge Base 구축.

 

지식그래프의 활용: 다중질의와 복합질의의 경우 자연어처리로만은 질의답변을 만들기는 힘드므로 지식그래프 사용. 복합질의 ex) 서울의 인구와 인천의 인구수 차이가 몇 명이야?

지식학습 개념

개체연결(Entity linking): 구문분석으로 SK -> SK 와이번즈, 두산 -> 두산 베어스로 명확하게 식별해 지식베이스에 연결(딥러닝의 활용)

관계식별: Sk 와이번즈 – 2018 한국시리즈의 우승자의 관계 -> 트리플 구조로 구축 -> 지식베이스로 등록.

KENT – Knowledge Extraction from Natural language Text

KENT.H (Harvest): 구조화된 문서(wiki, table 데이터)에서 지식 추출 및 저장

KENT.E (Entity): 문서의 개체명과 지식그래프의 개체 연결

KENT.R (Relation): 개체와 개체의 관계를 문맥정보 등을 이용해 연결하는 기능.

KENT.V (Value): 주어개체와 속성을 정의 및 속성값을 검색.

 

지식학습 단계

1)    자연어 분석단계: 문서에서 문장분리, 문장을 형태소, 개체명으로 분리, 이들을 언어적 연관석 분석.

2)    개체 연결단계: 문장내 토큰을 기존 지식 그래프의 개념/개체와 연결.

3)    관계 연결단계: 임의의 두 개체간의 관계(특성)과 연결.

4)    지식베이스 증강단계: 단위 지식의 신뢰도(confidence score)를 평가 및 오류제거하여 기존 지식에 통합.

 

개체연결 성능 문장의 개체가 많아질수록 정확도는 떨어진다. 실제 현장에서 점수가 더 떨어지는 이유는 실제 현장 데이터가 부족할수록 정확도는 더 낮게 나타난다.

관계연결 성능: 70%. CNN+LSTM의 융합 모델로 딥러닝 학습결과이다. 현재 GAN 관계연결의 연구 진행중

KENT.V – MRC, BiDAF활용. BiDAF -> BERT로 변환(진행중) 5~10% 성능 향상(예상).


향후 KENT 연구개발 방향

1)    문서/문단 단위의 지식학습 모델연구 – MRC적용 데이터기법

2)    관계식별(Relation Extractor) 앙상블 고도화

3)    다국어 지식학습 기술 연구 개발

4)    암흑개체(Dark Entity: 지식베이스에 없는 개체명을 지식베이스에 통합하는 과정)대상의 지식 학습 기술 연구개발.


지식베이스 활용방안

CNN기반 질의분류 기존 형태소분석 70% -> CNN: 83%로 성능향상을 보여진다.

 

KBQA – 앙상블 심층질의응답

질의 명확성 질문이 복잡할수록 분류가 오래걸려 힘들다.

질의 복잡성 -> 질문의 단순화 작업이 필요하다.

질의유형: 단순질의, 일반 복합질의, 판정형 복합질의, 비교형 복합질의.

 

Sentence2Vector기반 IRQA – 앙상블 심층질의응답. 질문과 유사한 답안을 제시.

질문의 요소가 부족하거나, 유형이 변하면 -> 답안의 정확성이 현저히 떨어진다: 대응방안 Sen2Vec IRQA

** 명확한 질문은 KBQA처리, 질의가 길거나 명확하지 않은 경우 Sen2Vec IRQA처리한다.

 

다국어지원 질의응답 확장방안

한국어 -> 영어, 일본어 페이지 전환. 일본어의 경우 infobox 66만페이지 중 93% 예측 가능.

 

향후 QA 연구개발

1)    멀티홉 QA같은 복합질의처리를 위한 MRC와 자연어기반 QA방안 보다, 지식학습을 통한 지식그래프 구축을 통해 해결예정.

2)    다양한 다국어 지식베이스 구축 및 NLU, QA다국어 대응.

728x90
반응형