2022. 5. 20. 17:24ㆍmachine learning
딥러닝기반의 지식학습과 심층 질의응답 – 정용일 연구위원님
지식그래프 – 구조화 형태의 데이터. 비정형을 정형화하는 과정에 자연어 처리 과정이 필수적으로 사용된다.
한국어 필수 코어지식: 2억~3억 트리플.
(출처)위키피디아, DBPedia -> Knowledge Base 구축.
지식그래프의 활용: 다중질의와 복합질의의 경우 자연어처리로만은 질의답변을 만들기는 힘드므로 지식그래프 사용. 복합질의 ex) 서울의 인구와 인천의 인구수 차이가 몇 명이야?
지식학습 개념
개체연결(Entity linking): 구문분석으로 SK -> SK 와이번즈, 두산 -> 두산 베어스로 명확하게 식별해 지식베이스에 연결(딥러닝의 활용)
관계식별: Sk 와이번즈 – 2018 한국시리즈의 우승자의 관계 -> 트리플 구조로 구축 -> 지식베이스로 등록.
KENT – Knowledge Extraction from Natural language Text
KENT.H (Harvest): 구조화된 문서(wiki, table 데이터)에서 지식 추출 및 저장
KENT.E (Entity): 문서의 개체명과 지식그래프의 개체 연결
KENT.R (Relation): 개체와 개체의 관계를 문맥정보 등을 이용해 연결하는 기능.
KENT.V (Value): 주어개체와 속성을 정의 및 속성값을 검색.
지식학습 단계
1) 자연어 분석단계: 문서에서 문장분리, 문장을 형태소, 개체명으로 분리, 이들을 언어적 연관석 분석.
2) 개체 연결단계: 문장내 토큰을 기존 지식 그래프의 개념/개체와 연결.
3) 관계 연결단계: 임의의 두 개체간의 관계(특성)과 연결.
4) 지식베이스 증강단계: 단위 지식의 신뢰도(confidence score)를 평가 및 오류제거하여 기존 지식에 통합.
개체연결 성능 – 문장의 개체가 많아질수록 정확도는 떨어진다. 실제 현장에서 점수가 더 떨어지는 이유는 실제 현장 데이터가 부족할수록 정확도는 더 낮게 나타난다.
관계연결 성능: 70%대. CNN+LSTM의 융합 모델로 딥러닝 학습결과이다. 현재 GAN 관계연결의 연구 진행중
KENT.V – MRC, BiDAF활용. BiDAF -> BERT로 변환(진행중)시 5~10% 성능 향상(예상).
향후 KENT 연구개발 방향
1) 문서/문단 단위의 지식학습 모델연구 – MRC적용 데이터기법
2) 관계식별(Relation Extractor) 앙상블 고도화
3) 다국어 지식학습 기술 연구 개발
4) 암흑개체(Dark Entity: 지식베이스에 없는 개체명을 지식베이스에 통합하는 과정)대상의 지식 학습 기술 연구개발.
지식베이스 활용방안
CNN기반 질의분류 – 기존 형태소분석 70% -> CNN: 83%로 성능향상을 보여진다.
KBQA – 앙상블 심층질의응답
질의 명확성 – 질문이 복잡할수록 분류가 오래걸려 힘들다.
질의 복잡성 -> 질문의 단순화 작업이 필요하다.
질의유형: 단순질의, 일반 복합질의, 판정형 복합질의, 비교형 복합질의.
Sentence2Vector기반 IRQA – 앙상블 심층질의응답. 질문과 유사한 답안을 제시.
질문의 요소가 부족하거나, 유형이 변하면 -> 답안의 정확성이 현저히 떨어진다: 대응방안 Sen2Vec IRQA
** 명확한 질문은 KBQA처리, 질의가 길거나 명확하지 않은 경우 Sen2Vec IRQA처리한다.
다국어지원 질의응답 확장방안
한국어 -> 영어, 일본어 페이지 전환. 일본어의 경우 infobox 66만페이지 중 93% 예측 가능.
향후 QA 연구개발
1) 멀티홉 QA같은 복합질의처리를 위한 MRC와 자연어기반 QA방안 보다, 지식학습을 통한 지식그래프 구축을 통해 해결예정.
2) 다양한 다국어 지식베이스 구축 및 NLU, QA다국어 대응.
'machine learning' 카테고리의 다른 글
네이버 뉴스 추천 알고리즘에 대해 (QnA) (0) | 2022.05.27 |
---|---|
네이버 검색 (지식답변 추천) - 출처(Creator)의 신뢰도와 인기도를 평가해, 믿을 수 있는 정보를 검색 결과에 우선적으로 노출하는 알고리즘 ‘C-Rank’ (0) | 2022.05.27 |
(솔트룩스 세미나) BERT기반 자연언어처리 – 양승원 연구위원님 (0) | 2022.05.20 |
(솔트룩스 세미나) 융합 신경망 기발 복합지식 추출 - 강원대 김학수 교수님 (0) | 2022.05.20 |
솔트룩스 세미나-뉴로 심볼릭AI by 이경일 대표 (0) | 2022.05.20 |