machine learning

생성요약(Abstractive summary) vs 추출요약(extractive summary)

짱가라 2023. 2. 10. 13:58
728x90
반응형

문서 요약에는 두 가지 종류가 존재합니다. 바로 생성요약(abstractive summary)와 추출요약(extractive summary)입니다.

생성요약은 토큰 간의 관계를 계산하여 원래 문서에 포함되지 않은 문장으로 요약을 합니다.
예를 들자면,

나는 오늘 친구와 만났다. 나는 친구와 피자를 먹고 맥주를 마셨다. 나와 친구는 밥을 먹고 보드게임 카페를 갔다. 거기서 할리갈리를 했는데 매우 재미 있었다.

이런 문서를,

나는 오늘 친구와 만나 재미있게 놀았다.

이렇게 요약하는 방식이라 할 수 있겠습니다.

반면 추출요약은 토큰 간의 관계를 계산하여 문서에 포함된 문장으로 요약을 합니다. 구분된 문장 중 중요도가 높은 순으로 n개의 문장을 뽑는다고 생각하면 편합니다. (문장 말고도 다른 토큰을 기준으로 요약할 수 있습니다. 다만 문장이 가장 보편적입니다)
아까 예시로 든 문서을 추출요약으로 요약한다면 이렇습니다.

나는 오늘 친구와 만났다.

중요도가 가장 높은 한 개의 문장을 선택하였기에 많은 정보가 누락되는 결과를 가져옵니다.
다만 추출요약은 생성요약보다 학습 시간과 컴퓨팅 리소스가 적게 드는 장점이 있습니다.

 


 

일반적으로 텍스트 요약 task는 크게 요약문을 생성하는 방식에 따라 extractive summarization(이하 ext)과 abstractive summarization(이하 abs)로 나눕니다. (Gudivada, 2018)

Extractive methods select a subset of existing words, phrases, or sentences in the original text to form a summary. In contrast, abstractive methods first build an internal semantic representation and then use natural language generation techniques to create a summary.

Ext는 보통 문장 단위로 중요도를 scoring한 후, 이를 기반으로 선택하고 조합하여 summary를 만듭니다. 우리가 글을 읽다가 형광펜을 칠하는 작업과 비슷하죠. 반면 abs는 원문을 기반으로 하되, 새로운 텍스트(novel text)를 생성해내는 NLG(natural language generation) 방식입니다. Ext는 원문에 있던 텍스트를 활용하기에 표현이 제한적이나 말이 안되는 표현이 포함될 가능성이 낮습니다. 반면 abs는 모델에서 새로운 텍스트를 생성해내야 하기에 말이 되지 않는 표현이 만들어질 가능성이 존재하나 좀더 flexible한 접근이 가능하다는 장점이 있습니다.

 

이 외에도 원문의 개수에 따라 single/multi document summarization, 생성해내는 텍스트 형태에 따라 keyword/sentence summarization, 요약 과정에서 원문 외 외부 정보를 얼마나 사용하는지에 따라 knowlege-poor/rich summarization 등 다양한 구분이 있습니다.

(G. Sizov(2010). Extraction-Based Automatic Summarization: Theoretical and Empirical Investigation of Summarization Techniques)

728x90
반응형