머신러닝으로 문서요약 구현 시 고려할 문제점 - Data Scarcity Problem

2023. 2. 22. 10:24machine learning

728x90
반응형

텍스트 요약이란 task는 사람이 하기에도 쉽지 않은, 시간이 많이 소모되는 작업입니다. 따라서 다른 task와 비교해도 labeled dataset을 만드는데 상대적으로 더 큰 비용이 소모되고 당연히 training을 위한 데이터가 많이 부족합니다.

  • 이에 따라 앞서 언급한 pretraining model을 이용하는 transfer Learning방식 외에도 unsupervised learning이나 reinforcement learning 방식으로 학습하거나 few-Shot Learning적 접근을 시도하고 있습니다.
  • 당연히 좋은 요약 데이터를 만드는 것 자체도 굉장히 중요한 연구 주제입니다. 특히나 현재 만들어진 summarization 관련 데이터셋의 상당수가 english 언어로 된 news type에 편중되어 있습니다. 이에 따라 최근 WikiLingua MLSUM과 같은 multilingual datasets이 만들어지고 있습니다. 보다 자세한 내용은 MLSUM: The Multilingual Summarization Corpus 2. Related Work를 살펴보세요.
728x90
반응형