머신러닝으로 문서요약 구현 시 고려할 문제점

머신러닝으로 문서요약 구현 시 고려할 문제점 - Data Scarcity Problem

2023. 2. 22. 10:24ㆍmachine learning

728x90

텍스트 요약이란 task는 사람이 하기에도 쉽지 않은, 시간이 많이 소모되는 작업입니다. 따라서 다른 task와 비교해도 labeled dataset을 만드는데 상대적으로 더 큰 비용이 소모되고 당연히 training을 위한 데이터가 많이 부족합니다.

이에 따라 앞서 언급한 pretraining model을 이용하는 transfer Learning방식 외에도 unsupervised learning이나 reinforcement learning 방식으로 학습하거나 few-Shot Learning적 접근을 시도하고 있습니다.
당연히 좋은 요약 데이터를 만드는 것 자체도 굉장히 중요한 연구 주제입니다. 특히나 현재 만들어진 summarization 관련 데이터셋의 상당수가 english 언어로 된 news type에 편중되어 있습니다. 이에 따라 최근 WikiLingua나 MLSUM과 같은 multilingual datasets이 만들어지고 있습니다. 보다 자세한 내용은 MLSUM: The Multilingual Summarization Corpus의 2. Related Work를 살펴보세요.

728x90

Text Summarization (automatic with ML) (0)	2023.02.24
Transformer 기반의 언어모델들에대한 정리 및 비교 (2018~2019년 발표된 논문) (0)	2023.02.24
Transformer로 한국어-영어 기계번역 모델 만들기 (0)	2023.02.17
머신러닝 훈련데이터, 테스트와 검증 데이터의 필요조건 (0)	2023.02.10
ROUGE(Recall-Oriented Understudy for Gisting Evaluation) 메트릭 (0)	2023.02.10

주식, 정보처리기술사, IT, 인공지능 자료창고