[논문 리뷰] PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization

https://arxiv.org/pdf/1912.08777.pdf

Abstract

최근 text-summarization과 같은 NLP task에서는 pre-trained transformer model이 큰 성과를 거두고 있다.

하지만 아직 abstractive text summarization 부분에서는 pre-training objectives가 크게 연구되지 않았고, 다양한 domain을 평가할 평가방법 역시 부족한 상황이다.

이 논문에서는 대량의 text corpora에 대한

Pre-training large Transformer-based encoder-decoder models를 제안한다.

PEGASUS 모델에서, 'important sequence' 들을 input sequence에서 제거하거나 masking하고, 남아있는 문장들로부터 가려진 부분을 생성할 수 있도록한다.

PEGASUS 모델은 12개의 downstream summarization task에서 SOTA의 성과를 보였고, 심지어는 low-resource summarization task에서도 놀라운 performance를 보였다.

MASS, UniLM, BART, T5와는 달리 PEGASUS는 작고 연속적인 text를 masking하는 것이 아닌 전체 sentence 자체를 masking한다.

또한 masking할 sentence를 선택하는 과정에서 random하게 고르는 것이 아닌 importance에 따라 결정한다.

Pre-training Objectives

Gap Sentences Generation(GSG)

이 논문에서는 downstream task의 목적에 맞는 pre-training model을 사용하는 것은 더욱 좋고 빠른 성능을 낸다고 가정하였다.

abstractive summarization과 같은 상황을 나타내기 위해, input document로부터 summary-like text를 만들어 낼 수 있도록 빈 sentence 자리를 채우는 형식의 pre-training을 진행한다.

하지만 그러한 과정은 단지 sentence를 copy하도록 train 할 수 밖에 없고, 이는 abstractive summarization과는 맞지 않는 모델이 되어버린다.

최근 masking word 기법이 성공을 거둠에 따라, 이 논문에서는 document로부터 전체의 sentence를 mask하도록 구현하고, gap-sentences들을 pseudo-summary로 합치도록 설계한다.

선택된 각각의 gap sentence들의 자리를 mask token [MASK1]로 대체한 후 model에 전달한다.

Gap Sentences Ratio (GSR)은 document에 있는 모든 sentences들의 개수 중 gap sentences로 선택된 비율을 의미한다.

이는 다른 work에서 maks rate와 비슷하다.

summary task와 더욱 근사시키기 위해, sentence를 선택할 때에는 document에서의 important / principal 정도에 따라 선택할 수 있도록 한다.

이는 model이 input에서 masking된 sentence를 예측한 sentence를 출력으로 내보낼 때, 해당 sentence가 중요하면 중요할 수록 출력이 document의 '요약'과 가까워지기 때문이다.

아래에서는 m개의 gap sentence를 선택하는 3가지의 전략을 제시한다.

- Random : random하게 m개의 문장을 선택한다.

- Lead : document의 첫문장부터 m개를 선택한다.

- Principal : Importance 에 따라 점수가 가장 높은 m개의 문장을 선택한다.

이때 Importance는 ROUGE1-F1 으로 계산한다.

Masked Language Model (MLM)

BERT에서처럼 input text의 15%를 token으로 선택하고, 선택된 token 중 80%는 [MASK2]로 masking, 10%는 random token, 나머지 10%는 그대로 둔다.

이 논문에서는 Transformer encoder에 MLM을 혼자 적용시키거나 GSG와 같이 적용을 시켜 실험을 진행하였는데, MLM을 pre-training 과정에서 혼자 사용한 경우에 transformer decoder가 encoder에 있는 모든 parameter를 공유하는 현상이 일어났다.

Fig. 1을 보면 GSG와 MLM이 같이 쓰인 것을 확인할 수 있는데, pre-training step이 아주 커진 경우에 MLM이 downstream task에서 improvement가 없다는 것을 실험을 통해 확인하였기 때문에, 최종 model인 PEGASUS(large) model에서는 MLM을 포함하지 않았다.

Conclusion

이 논문에서는 gap-sentences generation 기법을 사용하여 abstractive text summarization을 위한 pre-training sequence-to-sequence model을 제안한다.

gap-sentence를 선택할 수 있는 방법에 대해 알아보았고, 어떤 방법이 제일 optimal한지 확인하였다.

pre-training corpora, gap-sentences ratios, vocabulary size에 따른 효과를 알아보았고, 1000개의 examples만 가진 unseen-summarization dataset에서도 매우 빠르게 적용이 가능함과 동시에 사람과 거의 동일한 성능을 보인다는 것을 확인할 수 있었다.

'자연어처리(NLP) > 논문 리뷰' 카테고리의 다른 글

[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, 2018 (0)	2023.01.24
[논문 리뷰] ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS, 2020 (0)	2023.01.21
[논문 리뷰] BERTSUM : Text Summarization with Pretrained Encoders, 2019 (0)	2023.01.17
[논문 리뷰] Big Bird: Transformers for Longer Sequences, 2020 (0)	2023.01.17
[논문 리뷰]Sequence to Sequence Learning with Neural Networks(Seq2Seq) (0)	2022.03.20

끄적끄적[CS]

[논문 리뷰] PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization

Abstract