본문 바로가기
반응형

분류 전체보기35

[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, 2018 https://arxiv.org/pdf/1810.04805.pdf Abstract 이 논문에서는 Bidirecitonal Encoder Representations form Transformers의 BERT 모델을 새롭게 제시한다. 다른 language representation model들과는 달리, BERT는 left, right context 모두 고려하는 unlabeled text를 이용하여 pre-train을 진행하도록 구현되어있다. pre-trained BERT model은 output layer 하나만을 추가함으로써 fine-tuning이 가능하고, task에 따른 추가적인 model 수정 없이 QA와 language inference 와 같은 NLP task에서 SOTA의 성능을 내었다고 .. 2023. 1. 24.
[논문 리뷰] ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS, 2020 https://arxiv.org/pdf/2003.10555.pdf Abstract BERT와 같은 MLM pre-training methods는 input을 [MASK]와 같은 token으로 바꾸고, 해당 token들을 original token으로 복원시키려는 방식으로 훈련된다. 이러한 방법은 좋은 성능을 내긴 하지만, 효과적인 성능을 위해서는 매우 많은 양의 컴퓨팅 자원이 필요하다. 저자는 'replaced token detection'이라는 sample-efficient pre-training task를 제안하였다. input을 masking하는 것 보다는 조그마한 generator가 sampling한 plausible alternative samples들로 대체한다. 그리고 main model은 .. 2023. 1. 21.
[논문 리뷰] SASREC : Self-Attentive Sequential Recommendation, 2018 https://arxiv.org/pdf/1808.09781.pdf Abstract 최근 추천시스템에선 사용자의 activities에 대한 context를 포착하는 것이 key feature가 되었다. 이러한 패턴을 얻기 위해 Markv Chain과 RNN이 사용되고 있는데, MC의 경우 이전 action들을 이용하여 사용자의 다음 action을 예측하는 방법으로 극단적으로 sparse dataset에 좋은 성능을 보이지만 그렇기 때문에 model의 parsimony가 critical하고, RNN의 경우 longer-term semantics를 얻도록 하는 방법으로 denser dataset에서 좋은 성능을 보이지만 그만큼 더욱 높은 model complexity가 필요하다. 이 논문에서의 목표는 위 언급.. 2023. 1. 20.
[논문 리뷰] SESSION-BASED RECOMMENDATIONS WITH RECURRENT NEURAL NETWORKS (GRU4Rec), 2016 https://arxiv.org/pdf/1511.06939.pdf Abstract 이 논문에서는 RNN model을 Recsys 분야에 새롭게 대입하려 하였다. 당시 사용되던 recsys는 Netflix와 같이 long session-based data보다는 일반적인 사이트에서 얻어온 short session-based data에 의존한다는 문제에 직면한다. 이러한 상황에서는 MF 방법이 효과적으로 적용될 수 없기에, item간의 추천에 의존함으로써 해당 문제를 극복할 수 있다고 한다. 전체 session을 modeling 하면 더욱 정확한 추천을 할 수 있다. 따라서 저자는 RNN-based approach를 제시하였고, ranking loss나 다른 몇몇의 부분들을 수정한 새로운 RNN 모델을 제시하.. 2023. 1. 18.
반응형