[Paper Review] Contrastive Learning for Neural Topic Model (Neurips 2021)

2024. 5. 2. 19:20·Paper Review

Contrastive Learning for Neural Topic Model (Neurips 2021)

 

 

 

 

Abstract

 

이전 연구들에서 , GAN-based Neural Topic Model (ATM) 은 문서를 다른 문서와 구별하여 한 문서의 semantic pattern 을 capture 할 수 있는 좋은 방법입니다.

하지만 이러한 discriminative-generative 구조의 NTM 은 두가지 단점 (issue) 이 있습니다.

 

1. GAN-based 모델은 문서 내에서 핵심적인 단어의 doc-topic 분포가 동일한 유사한 문서를 연관시키지 않는다. 

(positive document 를 고려하지 않음)

 

2. 문서의 sentiment 와 같은 외부정보를 통합하는 능력을 제한하고 , 이는 NTM 훈련에 도움이 되는 것으로 나타난다.

 

따라서 이러한 문제를 해결하기 위해 본 연구에서는 다음과 같은 기여를 하였음

  • 본 연구에서는 수학적 분석의 관점에서 GAN-based NTM 아키텍처를 다시 검토
  • discriminative 목표를 optimization problem 으로 re-formulate 하는 새로운 접근 방식을 제안
  • 외부 변수의 통합을 용이하게 하는 새로운 샘플링 방법을 설계
    새롭게 제안하는 방법은 모델이 유사한 샘플 (positive) 간의 관계를 통합하도록 장려하고 유사하지 않은 샘플 (negative) 간의 유사성에 대한 제약을 시행 (Adaptive Scheduling) 
  • 새로운 샘플링 방법은 주요 주제에 기여하는 두드러진 단어 (Salient words) 를 모델에 학습시키는데 도움이 된다.
  • 실험 결과는 토픽 일관성 (Topic coherence focused) 측면에서 SOTA 를 달성함.

 


 

1 Introduction

 

- Conventional (traditional) topic model (LDA) : Learns doc-topic distribution and topic-word distribution via Gibbs sampling and Mean field approximation

 

- Neural topic model (NTMs) : Miao et al. [8] proposed to use neural variational inference as the training method while Srivastava and Sutton [9] employed the logistic normal prior distribution.

 

- GAN 기반 NTM [10, 11] 에서 사용하는 Gaussian 및 logistic normal prior 모두 토픽 모델의 품질을 유지하는 데 중요한 문서의 다중 모드 측면과 의미 패턴을 capture 하지 못하는 것으로 나타났습니다. (문제제기)

 

 

기존 ATM 의 two main limitations

 

1. ATM relies on the key ingredient : leveraging the discrimination of the real distribution from the fake (negative) distribution to guide the training.

 

--> Fake (negative) distribution 으로 가이드하여 training 의 의존성

fake distribution 에서의 샘플링방법은 , real distribution 에 따라 조건이 지정되지 않기 때문에 real sample data (real document) 의 유사한 의미내용을 크게 보존하는 positive sample 을 거의 생성하지 못합니다.

 

이는 positive sample 과 real sample 간의 mutual infomation (상호정보) 에 관한 행동을 제한하며 , 이것이 unsupervised representation learning 에서 중요한 역할을 한다는것이 알려져 있다 [14–18]. 

 

 

2. ATM takes random samples from a prior distribution to feed to the generator.

 

--> 기존 모델인 ATM 은 GAN-based 아키텍쳐에서 generator 에 넣기 위해 prior distribution 에서 무작위로 랜덤샘플링 한다

 

이전연구에서는 [19] , metadata 나 sentiment 같은 추가 변수를 통합하여 topic distribution 을 추정하는것이 보다 일관된 주제를 학습하는데 영향이 있다는것을 보여주었다.

그러나 GAN-based 의 ATM 은 사전에 정의된 prior distribution 에 의존하여 이러한 추가 변수를 이용하지 못한다는 한계점이 있다.

 

 

- 위에서 언급한 단점들을 해결하기 위해 , 본 논문에서는 generative-discriminative architecture 에 의존하지 않고 샘플 간의 관계를 모델링하는 새로운 방법을 제안함.

 

- Input (or prototype) 의 표현을 의미 내용을 공유하는 것 , 즉 긍정적인 샘플에 더 가깝게 이동하는 것을 목표로 하는 optimization problem 으로 목표를 공식화한다

- 모형이 negative sample 을 프로토타입 (input) 에서 더 멀리 떨어뜨리도록 강제하기 위해 보조 제약 조건을 형성하여 프로토타입과 negative sample 의 관계를 고려합니다.

 

- 보조 제약 조건 : 기존 contrastive loss 에서 negative sample 의 영향력을 제어하는 hyperparameter 를 형성함

--> 본 연구에서 제안한 모델의 수학적 프레임워크는 contrastive objective 로 마무리되며, 이는 신경 주제 모델 (VAE) 의 ELBO 와 jointly optimization 한다.
그럼에도 불구하고 다음과 같은 또 다른 챌린지가 있는데 , 바로 "NTM setting 에서 양성 및 음성 샘플을 효과적으로 생성하는 방법은 무엇일까?"  이다.
최근 Contrastive learning 관련 컴퓨터비전 도메인의 연구에서는 이미지에 대한 hard negative samples 을 생성하기 위한 positive 샘플링 전략과 방법이 있다 [20-23].
그러나 대조학습에서 NTM 에 본 기술을 적용하기 위한 관련 연구는 문헌에서 무시되어 왔다.

 

- 본 연구에서는 인간이 한 쌍의 문서의 유사성을 포착하는 방식을 모방한 새로운 표본 추출 방법 (A novel sampling method) 을 소개하며, 이는 다음과 같은 가설을 기반으로 한다

 
가설 : Prototype (input) 과 positive sample 의 공통 주제는 문서 내에서 두드러진 단어 (salient words) 의 상대적 빈도로 인해 실현될 수 있습니다.

 

 

 

 

위의 그림1 에서 , "league"와 "team"과 같은 두드러진 단어 (salient words) 의 빈도가 positive sample 에서 그들의 빈도(counterpart) 에 비례하기 때문에, 인간은 positive sample 과 prototype (input) 의 유사성을 구별할 수 있습니다.

반면, prototype 에 포함된 단어들은 모두 prototype (input) 의 맥락에서 두드러지지 않는 "billions"과 "dollars"라는 단어를 포함하지만, input 에 포함된 단어들은 negative sample 에서 발생하지 않기 때문에 input 과 negative sample 사이의 분리가 유도될 수 있다.

이러한 직관을 기반으로 우리의 방법은 salient words 의 가중치를 유지하고 프로토타입에서 중요하지 않은 항목 (Lower tf-idf score tokens) 의 가중치를 변경하여 positive sample 을 구성하는 동시에 negative sample 에 대해서는 반대 절차를 수행함으로써 topic model 에 대한 positive sample 과 negative sample 을 생성한다.

본질적으로 제안하는 방법은 샘플을 그리기 위해 고정된 prior distribution 에 의존하지 않기 때문에 더 나은 learning topic 에 대한 추가 지식을 제공하기 위해 외부 변수를 통합하는 데 제약을 받지 않는다. (GAN-based NTM 의 단점을 보완함)

 

 

Main contributions

 

- 새로운 수학적 관점에서 샘플 간의 관계를 모델링하여 의미 있는 표현을 캡처하는 문제를 대상으로 하고 신경 주제 모델(NTM) 의 ELBO 와 공동으로 최적화 (jointly optimization) 된 새로운 대조 목표 (A novel contrastive objective) 를 제안함.
Prototype 과 positive sample 간의 상호 정보를 캡처하는 것은 일관된 주제를 구성하기 위한 강력한 기반을 제공하는 반면, prototype 을 negative sample 과 구별하는 것은 상대적으로 덜 중요한 역할을 한다는 것을 실험적으로 보였음.

 


- A novel sampling strategy : 서로 다른 문서를 비교할 때 인간의 행동에 의해 동기가 부여되는 새로운 샘플링 전략을 제안함

즉 , 비슷한 문서 혹은 다른 문서 (positive and negative sample) 샘플링을 할때 최대한 인간의 행동을 모방하듯하는 새로운 샘플링 전략을 제안하였음
본 연구에서 새롭게 제안하는 샘플링 전략은 Reconstructed output 에 의존하여 샘플링을 모델의 학습 프로세스에 맞게 조정하고 다른 샘플링 전략과 비교했을때 가장 유익한 샘플을 생성한다.

 


- 세 가지 벤치마크 데이터셋에서 주제 일관성 측면 (topic coherence focused) 에서 다른 baseline model 을 능가하여 제안하는 접근 방식의 효과를 입증함

 


2 Related Work

Neural Topic Model

 

NTM (VAE based) = reparameterization trick + neural variational inference

Subsequent works apply various prior distributions, e.g., Gaussian or Logistic normal

 

이전까지의 NTM 연구들 : 

[27] topic coherence focused optimizing objective 

[28] incorporating contextual language knowledge (knowledge distillation)

[19] metadata neural topic modeling 을 위한 graph 활용 (group of documents)

 

이러한 연구들은 , 모두 인간이 해석가능한 토픽을 생성하기 위한데에 목표를 두고 있다.

 

Adversarial Topic Model

[4] ATM

 

[4] ATM (Adversarial Topic Model) : GAN-based architecture 로 이루어진 topic modeling approach

 

ATM 아키텍처의 주요 구성 요소는 random sampling 된 document-topic distribution 를 투영하여 가능한 한 가장 현실적인 document-word distribution 를 얻으려는 generator 와 생성된 샘플과 실제 true 샘플을 구별하려는 discriminator 로 구성된다.

[10, 11].


문서의 유익한 표현을 더 잘 학습하기 위해 Hu et al. [12]는 기존 ATM 에서 encoder 와 generator 간의 조정을 장려하기 위해 두 개의 주기 일관성 제약 조건을 추가할 것을 제안하였다.

 

Contrastive Framework and Sampling Techniques

 

의미있는 표현 (Meaningful representation) 학습을 위해 contrastive method 에 대한 다양한 연구들이 있다.

 

특히 컴퓨터 비전 도메인에서는 image classification [29, 30], object detection [31-33], image segmentation[34-36] 등의 작업에 대해 contrastive framework 가 적용된다.
이미지와 다른 다른 응용 프로그램에는 adversarial training [37–39], graph [40–43], and sequence modeling [44–46] 이 있다.

특히 contrastive learning 의 performance 를 향상시키기 위해 positive sampling strategy 에 대한 연구가 제안되기도 했다.

예를들면 이미지에서 semantic content 를 보존하는 view-based transformation 을 적용하는방법이다.[22, 17, 18].

 


한편, 최근에는 negative sampling 방법의 연구에 대한 관심이 급증하고 있습니다.
Chuang et al. [20]은 false negative sample 에서 사실을 수정하는 debiasing 방법을 제안합니다.
Object detection 태스크에서 , Jin et al. [47]은 비디오의 시간적 구조를 사용하여 negative samples 를 생성합니다.
이처럼 contrastive learning 과 sampling 기술이 광범위하게 연구되었지만 contrastive method 을 NTM에 적용하려는 노력은 거의 이루어지지 않았습니다.

 

 

 

본 논문에서는 NTM 에서 문서 표현을 학습하는 목표를 contrastive objective 로 re-formulate 합니다.
목표는 대부분 Robinson et al. [21]과 관련이 있습니다. (Mostly related)

그러나 [21] 연구와 두 가지 중요한 차이점이 있다.

(1) 이들은 negative sample 의 영향과 관련된 가중 계수를 hard negative sample 의 분포를 검색하는 도구로 사용하기 때문에 positive 및 negative sample 이 학습에 미치는 영향을 제어하기 위한 adaptive parameter 로 간주합니다.


(2) 본 연구는 positive sample 의 효과를 의미 있는 표현을 달성하는 주요 요인으로 간주하고 negative sample 의 영향을 활용한다.

 


새롭게 제안하는 접근 방식은 문서 간 구별하는 인간 행동 (human behavior) 에 대한 조사에서 입증된 바와 같이 topic modeling 에 더 적용할 수 있다.

 


3 Methodology

3.1 Notations and Problem Setting

 

본 연구는 topic coherence (NPMI) 을 통해 측정된 신경 토픽 모델(NTM)의 성능 향상에 중점을 둔다.

--> 따라서 좀 아쉽지만 , topic diversity 측면에서는 NTM 성능을 고려하지 않았다.

 

NTM은 latent vector 가 doc-topic distribution 으로 간주되는 Variational Autoencoder (VAE) 의 아키텍처를 이용한다.

 

- NTM 의 원리

Encoder : x (input word count vector) --> A prior distribution p(z) --> Generation latent vector z

Decoder : topic p(x|z) 에 대한 conditional distribution 에서 reconstruction x 생성

 

NTM (encoder) 의 목표는 , 주어진 corpus 의 word count 를 이용하여 doc-topic distribution 을 inference 하는것이다.

따라서 , 최종 목표는 NTM 인코더에 의해 모델링된 variational 분포 q(z|x)에 의해 근사되는 posterior 분포 p(z|x)를 추정해야 합니다.

이렇게 최종적인 NTM 의 objective function 은 다음과 같이 된다.

 

3.2 Contrastive objective derivation

본 연구에서는 prototype (input)  x와 추출된 샘플 간의 유사성을 측정하기 위해 semantic dot product 을 사용하도록 선택합니다.

 

A reasonable mapping function(encoder) 는 다음과같은 두가지를 만족해야 한다.

1. x and x + (positive sample) are mapped onto nearby positions.

2. x and x − (negative sample) are projected distantly.

 

여기서는 1 을 주요 목표로 하고 2 를 모델이 서로 다른 샘플 (input <-> negative sample) 간의 관계를 학습하도록 강제하는 제약 조건으로 하여 제약 조건의 강도를 나타내는 제약 최적화 문제(Adaptive schedulling) 를 지정합니다.

 

 

 

위의 (2) 식을 KKT condition 에서의 라그랑지 승수법 문제로 다시쓰면 다음과 같다.

 

 

Calculus 의 개념으로 간략하게 설명하자면 , 라그랑지 승수법 (Lagrange multiplier) 은 제약조건이 있는 상태에서 함수의 최적화 문제를 푸는 미적분학 기법이다. 그런데 보통 일반적인 경우에 제약조건은 등식으로 주어지는데 이를 부등식의 제약조건에서도 사용할 수 있게 확장한것이 바로 KKT condition 이다. 

 

따라서 본 연구에서 풀고자하는 optimization problem 을 KKT condition 에서의 라그랑지 승수법으로 풀 수 있다.

 

식 (3) 에서 알파값은 NTM 을 학습할때 (on Contrastive Objective perspective) negative sample 의 영향력을 제어하는 regularisation coefficient 이다.

 

식 (3) 을 contrastive loss 로 다시 쓰면 다음과 같다.

 

 

많은 contrastive learning 에서 objective function (e.g., InfoNCE) 를 보면 위의 식(4) 에서 베타값이 거의 1로 되어있다.

그런데 본 연구에서는 negative sample 이 contrastive learning 학습에 주는 영향을 제어하는 정도 (최적의 베타값을 이용하는것) 가 생성하는 토픽 성능에 영향을 준다고 주장하여 다음과 같은 objective function 을 얻었다.

 

3.3 Controlling the effect of negative sample

최적의 베타의 값을 선택하기 위하여 , 다음과 같은 두가지 Research Question (RQ) 을 하게된다.

 

RQ (1) β는 훈련 과정에 어떤 영향을 미치는가 ?

RQ (2) β를 근사하도록 데이터에 지향적인 (데이터 중심적인) 절차를 설계할 수 있을까 ?

 

Understanding the impact of β

RQ (1) 을 알아보기 위해 , 식(4) 의 contrastive loss (objective function) 의 latent distribution z 가 변할때의 gradient 를 계산하였다.

 

 

 

위 식은 베타값에 대한 gradient 의 비례성을 확인할 수 있다.

Training 시 업데이트 단계에서 베타값을 제어하여 local minima 에 빠지지 않도록 해야한다.

 

 

Adaptive scheduling

적응적 접근법을 활용하여 β를 추정하기 위한 데이터 지향적인 (데이터 중심적인) 절차를 구성합니다.
처음에 NTM 은 각 문서의 표현을 동등하게 고려할 것입니다.
positive sample 과 prototype (input) 의 유사성을 negative sample 과 prototype (input) 의 유사성의 관계는 모델의 시작 관점을 제공할 수 있습니다.

그 정보를 , 베타의 초기값으로 설정한다. 

 

 

초기화 후 모델 학습을 수용하기 위해 triangle scheduling 절차에 따라 β 값을 계속 업데이트하는 adaptive strategy 을 채택합니다:

 

 

 

3.4 Word-based Sampling Strategy (매우중요! , 논문의 핵심 method) 

 

본 연구에서는 Positive sample 과 negative sample 을 모두 추출하기 위해 단어 기반의 간단한 접근 방식을 제안한다.

 

Negative Sampling

문서 안의 token 들중에서 , tf-idf score 가 가장 높은 k 개의 단어들을 선택해서 그 단어들의 가중치를 reconstruction 된 가중치로 변경한 문서를 그 문서의 negative sample , 즉 x- 로 이용한다.

negative sample 은 강제로 original document (prototype , i.e input) 와 다른내용을 가지도록 만든다.

 

즉 , x- (negative sample) 는 x 문서에서 주제에 핵심이 되는 salient words (selected token) 을 없앤 문서이다. 

 

Positive Sampling

Negative sampling 과 정반대의 token 을 이용하지만 샘플링 방법은 동일하다.

문서 안의 token 들 중에서 , tf-idf score 가 가장 낮은 k 개의 단어들을 선택해서 그 단어들의 가중치를 reconstruction 된 가중치로 변경 한 문서를 그 문서의 positive sample , 즉 x+ 로 이용한다.

positive sample 은 강제로 original document (prototype , i.e input) 과 비슷한 내용을 가지도록 만든다.

 

x+ 문서는 중요하지 않은 토큰 (lower tf-idf score words) 의 가중치를 수정하더라도 원본문서의 중요한 토픽을 유지할 수 있다.

따라서 문서의 주제 (핵심단어) 는 보존시키면서 (가중치를 유지) 다양한 샘플을 생성하기 위한 샘플링 전략이고 주어진 문서 (original document) 에 대한 효과적인 표현을 학습하는데 사용될 수 있다.

 

 

3.5 Training objective

 

Joint objective : Reconstructing the original input, matching the approximate with the true posterior distribution, with the contrastive objective

 

최종적인 overall objective function 은 기존 NTM (VAE-based) Loss 와 Contrastive objective 를 jointly optimization 한다.

 

 

 

 

4 Experimental Setting

 

4.1 Datasets

20Newsgroups (20NG) , Wikitext-103 (Wiki) , IMDb movie reviews (IMDb)

 

Evaluation

Topic quality (topic coherence focused) : NPMI [28]

Downstream Task 성능평가 : Text classification (F1-score)

 

 

4.2 Baselines

  • NTM [27] a Gaussian-based neural topic model proposed by (Miao et al., 2017) inheriting the VAE architecture and utilizing neural variational inference for training.
  • SCHOLAR [19] a VAE-based neural topic model learning with logistic normal prior and is provided with a method to incorporate external variables.
  • SCHOLAR + BAT [28] a version of SCHOLAR model trained using knowledge distillation where BERT model as a teacher provides contextual knowledge for its student, the neural topic model.
  • W-LDA [13] a topic model which takes form of a Wasserstein auto-encoder with Dirichlet prior approximated by minimizing Maximum Mean Discrepancy.
  • BATM [11] a neural topic model whose architecture is inspired by Generative Adversarial Network. We use the version trained with bidirectional adversarial training method and the architecture consisting of 3 components: encoder, generator, and discriminator.

 

 

5 Results

 

5.1 Topic coherence

 

Overall basis

 

 

 

Topic-by-topic basis

 

 

 

JS score (Jensen-Shannon dicvergence) 를 시각화하여  가장 잘 aligned 된 44개의 토픽 쌍을 선택하여 비교를 수행하기로 결정합니다. 그림 3(오른쪽)과 같이 제안한 모델은 기준 모델보다 NPMI 점수가 높은 토픽이 더 많습니다. 
이는 모델이 평균적으로 더 나은 주제를 생성할 뿐만 아니라 주제별로 더 나은 주제를 생성한다는 것을 의미합니다.

 

5.2 Text classification

 

토픽모델의 extrinsic predictive performance 비교를 위하여 downstream task 로 text classification 을 수행하였다.

 

 

5.3 Ablation Study

 

 

새롭게 제안한 sampling strategy 에 대해 ablation study 를 제안하였는데 , 이를 통해 positive sample 의 영향력이 negative sample 보다 크다는것을 발견함.

--> 이는 인간의 행동 (human behavior) 에서 영감을 얻는 positive 샘플의 효과에 초점을 맞추기 위한 이 논문의 접근 방식을 뒷받침 해주는 근거가 된다.

 

 

6 Analysis

6.1 Effect of adaptive controlling parameter

 

6.2 Random Sampling Strategy

 

 

 

본 논문에서 제안한 sampling method 와 다른 샘플링 방법들을 비교한 topic coherence (NPMI) 성능비교이다. 

이를통해 자기들의 방식이 contrastive learning 학습성능에 긍정적인 영향이었고 적절한 sampling strategy 라는것을 실험적으로 보였다.

 

 

6.3 Importance Measure

 

 

제안하는 sampling method 에서 positive sample , negative sample 을 생성하기 위해 문서내에서 salient words 를 정하는 과정에서 본 연구에서는 tf-idf measure 를 사용하였다. 

tf-idf 가 샘플링에 적절한 방법임을 PCA , SVD 와 비교하여 실험결과로 보여주었다.

 

 

6.4 Case Studies

 

 

 

생성된 주제의 topic quality (topic coherence) 을 비교하기 위해 세 가지 데이터 세트 각각에서 무작위로 샘플 주제를 추출하고 그 결과를 비교하였다.

 

7 Conclusion

 

이 논문에서는 NTM 이 더 의미 있는 표현을 학습하는 데 도움이 되는 새로운 방법을 제안한다.
이것을 수학적 관점으로 문제에 접근하여 모델이 positive 와 negative 의 쌍의 효과를 모두 고려하도록 강제합니다. 


semantic pattern 을 더 잘 포착하기 위해 문서를 구별할 때 인간의 행동 (human behavior) 에서 영감을 얻은 새로운 샘플링 전략을 소개하였다.


세 가지 일반적인 벤치마크 데이터 세트에 대한 실험 결과는 우리의 방법이 주제 일관성 측면에서(in terms of topic coherence) 다른 최첨단 NTM 모델들보다 성능이 뛰어나다는 것을 보여줍니다.

 

 

Comment

논문을 읽고 이해하는데 시간이 꽤 걸렸습니다. 다른부분은 한번읽고 다 바로바로 이해가 되는데 Word-based Sampling Strategy 가 처음 읽을때 참 이해하기 어렵고 힘들었습니다.

 

본 논문의 우수성

 

1. 이 논문 이전까지는 contrastive learning 을 topic modeling 태스크에 적용한 사례가 아마 제가 알기로는 없습니다. 

이 논문이 topic modeling 연구분야에서 contrastive learning 을 이용하는 거의 시초급의 연구인걸로 알고있어요. (제가 조사한 바로는 그렇습니다.) 거기에 큰 novelty 가 있는것 같습니다.

 

 

2. 수학적인 관점으로 엄밀하게 문제에 접근

 

처음에 introduction 에서도 나와있지만 , 이 논문이 나오기 전까지 2019~2020 쯤 했었던 topic modeling 에 대한 접근이 GAN-based NTM (Adversarial Training) 입니다. 근데 기존 GAN-based 모델의 한계점에 대한 문제제기를 수학적으로 엄밀하게 잘 접근하였습니다. 

또한 Adaptive scheduling 을 하기 위해 contrastive loss function 의 gradient 를 직접구해서 그걸 해야하는 근거또한 theoritical 하게 잘 보였습니다. 

이론적으로나 , 실험적으로나 논리적으로 정말 탄탄한 논문이라고 느꼈습니다.

 

 

3. 상당히 많은 실험과 시각화

 

저자들이 논문에서 제안한 방법의 우수성을 잘 입증하기 위해 , 기존에 topic modeling 연구에서 일반적으로 잘 하지 않는 실험 (JS score 시각화 , 다른 샘플링 method 와 비교 , tf-idf measure 와 다른 measure 들의 비교, 베타값의 추정에 대한 비교 시각화) 들을 하였습니다. 

 

이러한 과정들은 논문에서 주장하는 [문제제기 - 새로운 방법제안] 의 일련의 과정을 논리적으로 뒷받침하기에 적절했다고 생각합니다. 

  

약간 아쉬웠던 점

 

1. Topic coherence focusing

 

일반적으로 대부분의 많은 topic modeling 연구들은 , 보통 생성된 topic 의 성능을 평가할때 topic quality 요소로 크게 두가지를 고려합니다; 1) topic coherence 2) topic diversity. 근데 일반적으로 저 두 평가지표가 trade-off 가 있습니다.

 

근데 본 논문에서는 아예 topic coherence 평가지표만을 고려했습니다. 그게 리뷰어들한테 분명히 공격당할만한 요소인건 너무나 자명해서 , 아예 논문 처음부터 저자들은 계속 "in terms of topic coherence" 라는 표현을 여러번 사용했습니다. 

topic coherence 에 focus 를 맞추겠다는 표현도 사용했습니다. 

사실 contrastive learning 자체가 , alignment 를 하기위해 많이 쓰는 학습기법이다 보니까 coherence 에 더 적절하지 않을까 싶은건 어쩌면 자연스러운 생각이라고 생각합니다. 근데 topic diversity 를 다른 baseline 모델들과 비교해보면 어떤 결과일까 궁금했습니다. 

 

2. topic modeling results 설명방식

 

또한 topic diversity metric 은 아예 고려를 안해서 그런지 , Results 설명할때 overall basis 와 topic-by-topic basis 로 나누어서 설명하는 부분은 솔직히 이해가 잘 안갔습니다.... 뭔가 topic coherence 하나밖에 강점이 없으니까 어떻게든 논문의 양을 늘리려고 그러는건가 싶은 생각이 좀 들긴했습니다. (저부분은 굳이 이렇게까지? 싶었습니다.) 

 

 

정리

 

논문을 읽고 이해하는데 시간이 꽤 걸렸습니다. 다른부분은 한번읽고 다 바로바로 이해가 되는데 Word-based Sampling Strategy 가 처음 읽을때 참 이해하기 어렵고 힘들었습니다.

아쉬웠던 점도 몇개 적었지만 사실 억지로 끄집어내려고 한 것도 없지않아 있습니다.
전반적으로 정말 훌륭한 논문이라고 생각합니다. 우선 tf-idf measure 를 이용한 contrastive learning 의 효과를 어느정도 보여주었습니다. 다시한번 엄청나게 고전적이지만 tf-idf 의 위대함을 또 알게되네요...

또한 수학적인 theoritical 한 접근과 문제제기가 매력적이었습니다.  topic modeling 연구에서 이정도까지 수학적으로 깊게 들어가는 논문은 많이 못본거같습니다. 이부분에 분명한 강점이 있어서 Neurips 에 accept 된게 아닌가 싶었습니다.

 

 


Reference

 

개인적으로 중요하다고 생각되는 reference 는 bold체로 입력하였습니다.

 

[10] R. Wang, D. Zhou, and Y. He, “Atm: Adversarial-neural topic model,” Information Processing & Management, vol. 56, no. 6, p. 102098, 2019.

[11] R. Wang, X. Hu, D. Zhou, Y. He, Y. Xiong, C. Ye, and H. Xu, “Neural topic modeling with bidirectional adversarial training,” arXiv preprint arXiv:2004.12331, 2020.

 

 

[14] A. Blum and T. Mitchell, “Combining labeled and unlabeled data with co-training,” in Proceedings of the eleventh annual conference on Computational learning theory, pp. 92–100, 1998.

[15] C. Xu, D. Tao, and C. Xu, “A survey on multi-view learning,” arXiv preprint arXiv:1304.5634, 2013.

[16] P. Bachman, R. D. Hjelm, and W. Buchwalter, “Learning representations by maximizing mutual information across views,” arXiv preprint arXiv:1906.00910, 2019.

[17] T. Chen, S. Kornblith, M. Norouzi, and G. Hinton, “A simple framework for contrastive learning of visual representations,” in International conference on machine learning, pp. 1597–1607, PMLR, 2020.

[18] Y. Tian, C. Sun, B. Poole, D. Krishnan, C. Schmid, and P. Isola, “What makes for good views for contrastive learning,” arXiv preprint arXiv:2005.10243, 2020.

 

 

[19] D. Card, C. Tan, and N. A. Smith, “Neural models for documents with metadata,” arXiv preprint arXiv:1705.09296, 2017.

 

 

[20] C.-Y. Chuang, J. Robinson, L. Yen-Chen, A. Torralba, and S. Jegelka, “Debiased contrastive learning,” arXiv preprint arXiv:2007.00224, 2020.

[21] J. Robinson, C.-Y. Chuang, S. Sra, and S. Jegelka, “Contrastive learning with hard negative samples,” arXiv preprint arXiv:2010.04592, 2020.

[22] T. Chen, S. Kornblith, K. Swersky, M. Norouzi, and G. Hinton, “Big self-supervised models are strong semi-supervised learners,” arXiv preprint arXiv:2006.10029, 2020.

[23] Y. Tian, D. Krishnan, and P. Isola, “Contrastive multiview coding,” arXiv preprint arXiv:1906.05849, 2019.

 

 

[4] R. Wang, D. Zhou, and Y. He, “Open event extraction from online text using a generative
adversarial network,” arXiv preprint arXiv:1908.09246, 2019.

 

[12] X. Hu, R. Wang, D. Zhou, and Y. Xiong, “Neural topic modeling with cycle-consistent adversarial training,” arXiv preprint arXiv:2009.13971, 2020.

 

[29] P. Khosla, P. Teterwak, C. Wang, A. Sarna, Y. Tian, P. Isola, A. Maschinot, C. Liu, and
D. Krishnan, “Supervised contrastive learning,” arXiv preprint arXiv:2004.11362, 2020.
[30] R. D. Hjelm, A. Fedorov, S. Lavoie-Marchildon, K. Grewal, P. Bachman, A. Trischler, and
Y. Bengio, “Learning deep representations by mutual information estimation and maximization,”
arXiv preprint arXiv:1808.06670, 2018.
[31] E. Xie, J. Ding, W. Wang, X. Zhan, H. Xu, Z. Li, and P. Luo, “Detco: Unsupervised contrastive
learning for object detection,” arXiv preprint arXiv:2102.04803, 2021.
[32] B. Sun, B. Li, S. Cai, Y. Yuan, and C. Zhang, “Fsce: Few-shot object detection via contrastive
proposal encoding,” arXiv preprint arXiv:2103.05950, 2021.
[33] E. Amrani, R. Ben-Ari, T. Hakim, and A. Bronstein, “Learning to detect and retrieve objects
from unlabeled videos,” in 2019 IEEE/CVF International Conference on Computer Vision
Workshop (ICCVW), pp. 3713–3717, IEEE, 2019.
[34] X. Zhao, R. Vemulapalli, P. Mansfield, B. Gong, B. Green, L. Shapira, and Y. Wu, “Contrastive
learning for label-efficient semantic segmentation,” arXiv preprint arXiv:2012.06985, 2020.
[35] K. Chaitanya, E. Erdil, N. Karani, and E. Konukoglu, “Contrastive learning of global and
local features for medical image segmentation with limited annotations,” arXiv preprint
arXiv:2006.10511, 2020.
[36] T.-W. Ke, J.-J. Hwang, and S. X. Yu, “Universal weakly supervised segmentation by pixel-tosegment contrastive learning,” arXiv preprint arXiv:2105.00957, 2021.
[37] C.-H. Ho and N. Vasconcelos, “Contrastive learning with adversarial examples,” arXiv preprint
arXiv:2010.12050, 2020.
[38] T. Miyato, S.-i. Maeda, M. Koyama, and S. Ishii, “Virtual adversarial training: a regularization
method for supervised and semi-supervised learning,” IEEE transactions on pattern analysis
and machine intelligence, vol. 41, no. 8, pp. 1979–1993, 2018.
[39] M. Kim, J. Tack, and S. J. Hwang, “Adversarial self-supervised contrastive learning,” arXiv
preprint arXiv:2006.07589, 2020.
[40] Y. You, T. Chen, Y. Sui, T. Chen, Z. Wang, and Y. Shen, “Graph contrastive learning with
augmentations,” Advances in Neural Information Processing Systems, vol. 33, 2020.


[41] F.-Y. Sun, J. Hoffmann, V. Verma, and J. Tang, “Infograph: Unsupervised and semi-supervised
graph-level representation learning via mutual information maximization,” arXiv preprint
arXiv:1908.01000, 2019.
[42] Y. Li, C. Gu, T. Dullien, O. Vinyals, and P. Kohli, “Graph matching networks for learning
the similarity of graph structured objects,” in International Conference on Machine Learning,
pp. 3835–3845, PMLR, 2019.
[43] K. Hassani and A. H. Khasahmadi, “Contrastive multi-view representation learning on graphs,”
in International Conference on Machine Learning, pp. 4116–4126, PMLR, 2020.
[44] L. Logeswaran and H. Lee, “An efficient framework for learning sentence representations,”
arXiv preprint arXiv:1803.02893, 2018.
[45] A. v. d. Oord, Y. Li, and O. Vinyals, “Representation learning with contrastive predictive coding,”
arXiv preprint arXiv:1807.03748, 2018.
[46] O. Henaff, “Data-efficient image recognition with contrastive predictive coding,” in International
Conference on Machine Learning, pp. 4182–4192, PMLR, 2020.


[47] S. Jin, A. RoyChowdhury, H. Jiang, A. Singh, A. Prasad, D. Chakraborty, and E. Learned-Miller,
“Unsupervised hard example mining from videos for improved object detection,” in Proceedings
of the European Conference on Computer Vision (ECCV), pp. 307–324, 2018.

 


 

'Paper Review' 카테고리의 다른 글

[Paper Review] MCSE: Multimodal Contrastive Learning of Sentence Embeddings (NAACL 2022)  (0) 2025.03.30
[Paper Review] Density Matching for Bilingual Word Embedding (NAACL 2019)  (0) 2024.07.31
[Paper Review] Diversity-Aware Coherence Loss for Improving Neural Topic Models (ACL 2023)  (0) 2024.03.11
[Paper Review] Topic Modelling Meets Deep Neural Networks : A Survey  (2) 2024.02.07
[Paper Review] “Low-Resource” Text Classification : A Parameter-Free Classification Method with Compressors (ACL 2023)  (0) 2024.01.15
'Paper Review' 카테고리의 다른 글
  • [Paper Review] MCSE: Multimodal Contrastive Learning of Sentence Embeddings (NAACL 2022)
  • [Paper Review] Density Matching for Bilingual Word Embedding (NAACL 2019)
  • [Paper Review] Diversity-Aware Coherence Loss for Improving Neural Topic Models (ACL 2023)
  • [Paper Review] Topic Modelling Meets Deep Neural Networks : A Survey
Seung-won Seo
Seung-won Seo
ML , NLP , DL 에 관심이 많습니다. 반갑습니다 :P
  • Seung-won Seo
    Butterfly_Effect
    Seung-won Seo
    • 분류 전체보기 (77)
      • 일기장 (2)
      • 메모장 (1)
      • Plan (0)
      • To do List (0)
      • Paper Review (32)
      • Progress Meeting (0)
      • Research in NLP (14)
      • Progress for XTM (0)
      • Writing for XTM (0)
      • 논문작성 Tips (12)
      • Study (16)
        • Algorithm (0)
        • ML & DL (7)
        • NLP (2)
        • Statistics (1)
        • Topic Modeling (6)
  • 링크

  • hELLO· Designed By정상우.v4.10.3
Seung-won Seo
[Paper Review] Contrastive Learning for Neural Topic Model (Neurips 2021)
상단으로

티스토리툴바