문서요약 (Text Summarization) 개념

2023. 2. 10. 13:54machine learning

728x90
반응형

Definition

Berry, Dumais, & O’Brien (1995)은 텍스트 요약을 다음과 같이 정의합니다.

Text summarization is the process of distilling the most important information from a text to produce an abridged version for a particular task and user

한 마디로 주어진 텍스트 중 중요한 정보만 정제해내는 과정이라는 건데요.

여기서 정제라는 표현과 중요한이라는 표현은 다소 추상적이고 주관적인 표현이기에 개인적으로는 다음과 같이 정의하고 싶습니다.

 

f(text) = comprehensible information

 

즉 텍스트 요약은 원문을 이해하기 쉬우면서도 가치있는 정보로 변환하는 작업입니다.

인간은 길이가 길거나 여러 문서로 나눠져있는 텍스트 정보를 한 눈에 파악하기 어려워합니다.

때로는 알지 못하는 전문 용어가 많이 사용되어 있을 수도 있습니다. 이러한 텍스트를 원문을 잘 반영하면서도 간결하여 이해하기 쉬운 형태로 바꿔주는 작업은 상당히 가치있는 일입니다.

물론 무엇이 정말 가치있는 정보인지, 어떠한 형태로 바꿔줄지 등은 요약을 하는 목적이나 개인의 취향에 따라 달라지게 될 것입니다.

이러한 관점으로 바라본다면 회의록, 신문기사 헤드라인, 논문 abstract, 이력서 등 텍스트를 생성해내는 task뿐만 아니라 텍스트를 그래프나 영상으로 변환하는 작업들도 텍스트 요약에 해당된다고 말할 수 있습니다.

물론 그냥 summarization이 아닌 Text Summarization이기에 요약의 대상(source)은 text형태로 한정됩니다.

(요약의 source는 text뿐만 아니라 image나 video가 될 수도 있기 때문이죠. 전자의 예가 image captioning, 후자의 예가 video Summarization입니다.

또한 Text, image, video 등 다양한 형태의 source를 함께 요약하는 방식을 multimodal summarization라고 합니다.

물론 Vision과 NLP의 경계가 점점 흐릿해져가는 최근 딥러닝 추세를 고려해본다면, 곧 'Text'를 prefix로 붙이는게 의미 없는일이 되지는 않을까 하는 생각이 들기도 하네요.)

 

728x90
반응형