machine learning(66)
-
머신러닝 훈련데이터, 테스트와 검증 데이터의 필요조건
검증데이터의 필요조건 검증데이터는 훈련데이터로 학습한 모델에 대한 과적합 여부를 판별할 수 있어야 하고, 학습데이터(훈련데이터)와 불일치해야 한다. 모델이 새로운 샘플에 대해서 잘 예측하기 위해서는 일반화가 잘 이루어져야 하며, 이를 확인하기 위해 모델을 테스트해보는 것이 중요합니다. 훈련 세트와 테스트 세트로 나누어 진행을 하는데, 훈련 세트를 사용하여 모델을 훈련하고 테스트 세트를 사용해 모델의 성능을 모니터링하는 것이 일반적입니다. 훈련 세트 : 모델 훈련을 위한 데이터셋 테스트 세트 : 훈련된 모델을 실제로 적용하기 위한 데이터셋 일반적으로 데이터셋의 80%를 훈련 세트로 사용하며, 20% 세트는 테스트 세트로 사용합니다. 하지만, 데이터셋이 매우 크다면 훈련 세트와 테스트 세트 중 테스트 세트의..
2023.02.10 -
ROUGE(Recall-Oriented Understudy for Gisting Evaluation) 메트릭
ROUGE ROUGE(Recall-Oriented Understudy for Gisting Evaluation)는 text summarization, machine translation과 같은 generation task를 평가하기 위해 사용되는 대표적인 Metric입니다. 본 글의 내용은 ROUGE score에 관한 논문인 https://aclanthology.org/W04-1013/를 참고하여 작성되었습니다. Machine translation에서 주로 사용하는 BLEU가 n-gram Precision에 기반한 지표라면, ROUGE는 이름 그대로 n-gram Recall에 기반하여 계산됩니다. 우선 N-gram에 대한 ROUGE-N은 다음과 같습니다. 위의 식은 reference summary(정답 ..
2023.02.10 -
문서요약 시 성능 문제 개선 주제
Performance improvement 어떻게 하면 요약문을 생성 시 발생 가능한 성능 문제를 해결할 수 있을까요? Transfer Learning PEGASUS (2020)에서는 텍스트 요약과정과 objective가 유사할수록 높은 성능을 보여줄 것이라는 가정하에 ROUGE score에 기반하여 중요하다고 판단되는 문장을 골라 문장 단위로 마스킹하는 GSG(Gap Sentences Generation) 방식을 사용했습니다. 현 SOTA 모델인 BART (2020)(Bidirectional and Auto-Regressive Transformers)는 입력 텍스트 일부에 노이즈를 추가하여 이를 다시 원문으로 복구하는 autoencoder 형태로 학습합니다. 최근 NLP에서 Pretraining mod..
2023.02.10 -
대용량 문서요약 (Multi / Long Document summarization)
Multi / Long documents summarization 앞서 언급했듯 요약이라는 task는 incomprehensible text를 comprehensible information로 바꾸는 작업입니다. 그렇기에 원문이 길어질수록, 또는 한 번에 한 문서가 아닌 여러 소스의 문서를 요약할수록 요약의 효용은 증가합니다. 문제는 동시에 요약 난이도 또한 증가한다는 점이겠죠. 그 이유로는 첫째, 원문이 길면 길수록 computational complexity가 더 급격하게 증가합니다. 이는 과거의 TextRank 같은 통계 방식에서 보다, 최근 transformer를 위시한 신경망 기반 방식에서 훨씬 더 critical한 문제입니다. 둘째, 원문이 길수록 그 안에 핵심이 아닌 내용, 즉 noise가 ..
2023.02.10 -
생성요약(Abstractive summary) vs 추출요약(extractive summary)
문서 요약에는 두 가지 종류가 존재합니다. 바로 생성요약(abstractive summary)와 추출요약(extractive summary)입니다. 생성요약은 토큰 간의 관계를 계산하여 원래 문서에 포함되지 않은 문장으로 요약을 합니다. 예를 들자면, 나는 오늘 친구와 만났다. 나는 친구와 피자를 먹고 맥주를 마셨다. 나와 친구는 밥을 먹고 보드게임 카페를 갔다. 거기서 할리갈리를 했는데 매우 재미 있었다. 이런 문서를, 나는 오늘 친구와 만나 재미있게 놀았다. 이렇게 요약하는 방식이라 할 수 있겠습니다. 반면 추출요약은 토큰 간의 관계를 계산하여 문서에 포함된 문장으로 요약을 합니다. 구분된 문장 중 중요도가 높은 순으로 n개의 문장을 뽑는다고 생각하면 편합니다. (문장 말고도 다른 토큰을 기준으로 요..
2023.02.10 -
문서요약 (Text Summarization) 개념
Definition Berry, Dumais, & O’Brien (1995)은 텍스트 요약을 다음과 같이 정의합니다. Text summarization is the process of distilling the most important information from a text to produce an abridged version for a particular task and user 한 마디로 주어진 텍스트 중 중요한 정보만 정제해내는 과정이라는 건데요. 여기서 정제라는 표현과 중요한이라는 표현은 다소 추상적이고 주관적인 표현이기에 개인적으로는 다음과 같이 정의하고 싶습니다. f(text) = comprehensible information 즉 텍스트 요약은 원문을 이해하기 쉬우면서도 가치있는 정보..
2023.02.10