2023. 2. 10. 13:54ㆍmachine learning
Definition
Berry, Dumais, & O’Brien (1995)은 텍스트 요약을 다음과 같이 정의합니다.
Text summarization is the process of distilling the most important information from a text to produce an abridged version for a particular task and user
한 마디로 주어진 텍스트 중 중요한 정보만 정제해내는 과정이라는 건데요.
여기서 정제라는 표현과 중요한이라는 표현은 다소 추상적이고 주관적인 표현이기에 개인적으로는 다음과 같이 정의하고 싶습니다.
f(text) = comprehensible information
즉 텍스트 요약은 원문을 이해하기 쉬우면서도 가치있는 정보로 변환하는 작업입니다.
인간은 길이가 길거나 여러 문서로 나눠져있는 텍스트 정보를 한 눈에 파악하기 어려워합니다.
때로는 알지 못하는 전문 용어가 많이 사용되어 있을 수도 있습니다. 이러한 텍스트를 원문을 잘 반영하면서도 간결하여 이해하기 쉬운 형태로 바꿔주는 작업은 상당히 가치있는 일입니다.
물론 무엇이 정말 가치있는 정보인지, 어떠한 형태로 바꿔줄지 등은 요약을 하는 목적이나 개인의 취향에 따라 달라지게 될 것입니다.
이러한 관점으로 바라본다면 회의록, 신문기사 헤드라인, 논문 abstract, 이력서 등 텍스트를 생성해내는 task뿐만 아니라 텍스트를 그래프나 영상으로 변환하는 작업들도 텍스트 요약에 해당된다고 말할 수 있습니다.
물론 그냥 summarization이 아닌 Text Summarization이기에 요약의 대상(source)은 text형태로 한정됩니다.
(요약의 source는 text뿐만 아니라 image나 video가 될 수도 있기 때문이죠. 전자의 예가 image captioning, 후자의 예가 video Summarization입니다.
또한 Text, image, video 등 다양한 형태의 source를 함께 요약하는 방식을 multimodal summarization라고 합니다.
물론 Vision과 NLP의 경계가 점점 흐릿해져가는 최근 딥러닝 추세를 고려해본다면, 곧 'Text'를 prefix로 붙이는게 의미 없는일이 되지는 않을까 하는 생각이 들기도 하네요.)
'machine learning' 카테고리의 다른 글
대용량 문서요약 (Multi / Long Document summarization) (0) | 2023.02.10 |
---|---|
생성요약(Abstractive summary) vs 추출요약(extractive summary) (0) | 2023.02.10 |
XGBoost 알고리즘의 개념 이해 (0) | 2023.02.09 |
구글 클라우드의 AI 플랫폼 솔루션, vertex.AI (0) | 2023.02.09 |
머신러닝의 종류 및 대표적인 적용 사례 (1) (0) | 2023.02.09 |