Diversity-Aware Coherence Loss for Improving Neural Topic Models (ACL 2023)
상세한 논문 리뷰

Abstract
--> Since neural topic models are trained by recreating individual input documents, they do not explicitly capture the coherence between topic words on the corpus level
--> In this work, we propose a novel diversity-aware coherence loss that encourages the model to learn corpus-level coherence scores while maintaining a high diversity between topics.
1 Introduction
--> Importantly, studies have shown that optimizing for coherence can come at the expense of diversity (Burkhardt and Kramer, 2019).
Even without accounting for topic diversity, directly optimizing for topic coherence by itself is a non-trivial task, due to the computational overhead and non-differentiability of the score matrix (Ding et al., 2018).
--> However, as the model is designed to operate on a document level input, one significant limitation of NTMs is their inability to explicitly capture the corpus level coherence score, which assesses the extent to which words within specific topics tend to occur together in a comparable context within a given corpus.
--> For example, semantically irrelevant words such as “politics” and “sports” might be contextually relevant in a given corpus (e.g., government funding for the national sports body).
--> Recently, one closely related work addresses this gap by reinterpreting topic modeling as a coherence optimization task with diversity as a constraint (Lim and Lauw, 2022).
--> To the best of our knowledge, no existing work have explicitly integrated corpus-level coherence scores into the training of NTMs without sacrificing topic diversity.
--> 본 연구는 NTM 을 학습시킬때 Topic diversity 의 손해 없이 Topic coherence 성능을 개선한것이 가장 큰 contribution 이다.
--> To address this gap, we propose a novel coherence-aware diversity loss, which is effective to improve both the coherence and diversity of NTMs by adding as an auxiliary loss during training
2 Background
2.1 LDA
--> Latent Dirichlet Allocation (LDA) (Blei et al., 2003) :
A simple yet effective probabilistic generative model trained on a collection of documents.
--> However, since the posterior distribution p(zi |θ) is intractable for exact inference, a wide variety of approximate inference algorithms have been used for LDA (e.g., Hoffman et al. (2010)).
2.2 NTM
--> A common strategy to approximate such posterior is employing the variational auto-encoder (VAE) (Kingma and Welling, 2014)
--> In particular, NTMs use an encoder network to compress the document representation into a continuous latent distribution and pass it to a generative decoder to reconstruct the bag-of-words (BoW) representation of the documents.
--> The model is trained to minimize the evidence lower bound (ELBO) of the marginal log-likelihood described by the LDA generative process :

--> The first term attempts to match the variational posterior over latent variables to the prior, and the second term ensures that the variational posterior favors values of the latent variables that are good at explaining the data (i.e., reconstruction loss).
대표적인 NTM 모델들 (Baselines)
--> While standard Gaussian prior has typically been used in VAEs, ProdLDA (Srivastava and Sutton, 2017) showed that using a Laplace approximation of the Dirichlet prior achieved superior performance.
--> To further improve topic coherence, CombinedTM (Bianchi et al., 2021a) concatenated the BoW input with contextualized SBERT embeddings
--> ZeroshotTM (Bianchi et al., 2021b) used only contextualized embeddings as input.
3 Proposed Methodology
--> NTM model is trained on document-level input, it does not have direct access to corpus-level coherence information (i.e., word co-occurrence)
--> Document-level reconstruction loss, which may not be an accurate estimate of the true corpus distribution due to the inherent stochasticity of gradient-descent algorithms.
--> We address this problem by explicitly integrating a corpus-level coherence metric into the training process of NTMs using an auxiliary loss
3.1 Optimizing Corpus Coherence
topic-word distribution (베타) 의 improve 를 위하여 corpus-level coherence (NPMI metric) 를 최대화한다.
이를 위하여 corpus 에서의 pairwise NPMI matrix 를 계산하고 , 각 토픽 안에서 베타의 coherence penalty 를 위한 가중치를 각 토픽에서 상위 n개 단어의 negative 베타-weighted NPMI scores 를 이용한다. 이때 n은 하이퍼파라미터 이다.
이때 두가지 요소를 이용한다.
1) Mask M_c : 각 토픽의 상위 n개 단어를 keep
2) row-wise softmax operation function --> penalty is always positive
위 두가지를 이용하여 Coherence Weight 를 정의한다.

--> Topic-word distribution 에서 상위 n 개 단어들이 전체 corpus 에서의 coherence ??? (Corpus Coherence)
--> 베타-weighted average NPMI score
3.2 Improving Topic Diversity
한가지 중요한 문제 : The coherence weight W_c is that it does not consider the diversity across topics.
--> Trade-off of Coherence and Diversity
--> 위에서 정의한 corpus-level coherence weight 는 Topic 간의 Diversity 는 고려하지 않았다.
이 문제를 보완하기 위해 다음과 같은 추가적인 method 를 제안한다.
각 토픽내의 단어를 두개의 group 으로 나눈다.
1st group : 많은 토픽에서 높은 확률을 갖는 단어 (topic diversity 를 저하시키는 단어들)
이 그룹에 속하는 단어들은 여러 토픽에서 상위 n개 단어로 나타나게 되어서 diversity 를 저하시킬 가능성이 존재한다.
2nd group : 두번째 그룹은 각 토픽내 단어들중 1st 그룹에 속하지 않는 단어들이다.
쉽게 설명하자면 , 첫번째 그룹에 속하는 단어들은 여러 토픽에 걸쳐 자주 등장하는 흔한단어 (low-information) 들이고 두번째 그룹에 속하는 단어들은 그렇지 않은 특정 토픽에만 등장할 가능성이 높은 고유단어 (high-information) 들이기 때문에 두번째 그룹에 속한 단어들을 잘 나타나게 하는것이 topic diversity 성능을 개선하는데 중요한 역할을 한다.
따라서 추가적으로 제안하는 방법은 , 첫번째 그룹에 속한 단어들에다가 penalty 를 더 부여하는 것이다.
이는 추가적으로 제안한 방법을 coherence weight 에 적용한 최종 diversity-aware coherence weight 이다.

이를테면 첫번째 그룹과 두번째 그룹의 가중치를 나타내는 하이퍼파라미터(lamda) 값이 0.7 이라고 한다면 , 첫번째 그룹은 0.7 이고 두번째 그룹에 0.3 만큼 penalty 를 주게된다.
만약 이럴경우 첫번째 그룹의 W_c (즉 , coherence weight 값) 가 더 크게 작용하여 , 즉 해당 단어들에 대해 coherence 를 줄이고 두번째 그룹의 단어들에 대해 coherence 를 높여서 토픽안에서 고유한 단어가 잘 나타나도록 촉진시켜서 전체적인 topic diversity 를 증가시킨다.
- W_D 의 효과 요약
생성되는 토픽내에서 1st 그룹 단어는 잘 안나타나게 , 2nd 그룹의 단어는 잘 나타나게한다.
3.3 Auxiliary Loss
We propose an auxiliary loss that can be directly combined with the ELBO loss (Equation 2) when training the NTM.

--> In Equation 5, the topic probabilities are penalized by their negative weighted coherence score with the top-n words.
주제의 확률은 해당 주제 내에서 상위-n 단어들과의 부정적 가중치 일관성 점수에 의해 패널티를 받습니다.
제곱 연산이 추가되어 있어, 매우 높은 확률을 갖는 단어들이 패널티를 받게 되는데, 이는 Loss function 이 빠르게 global minima 에 도달하는 것을 피하기 위함입니다.
이렇게 정의한 Loss 는 over-confident logit 을 막기위해 효과적임을 3.4 Derivatives 섹션에서 Objective function 의 편도함수를 계산하여 보입니다.
--> The final objective function

3.4 Derivatives (From GPT)

- Softmax Derivative (Softmax 도함수):
- 소프트맥스 함수의 도함수는 가 0 또는 1에 가까울 때 0이 됩니다.
- 따라서, 주어진 단어에 대한 소프트맥스 확률이 0 또는 1에 가까울수록 편도함수의 첫 번째 항은 0에 가까워집니다.
- Additional Penalty from Squaring Operation (제곱 연산에서의 추가 패널티):
- 그러나 제곱 연산으로 인해 의 값이 작은 경우에도 이에 대한 패널티가 부여됩니다.
- 이 부분이 over-confident logit에 대한 규제를 수행합니다. 너무 높거나 낮은 확률에 대해 모델이 지나치게 확신을 갖지 않도록 하는 효과가 있습니다.
- Additional Penalty for Dominance (지배에 대한 추가 패널티):
- 두 번째 항에는 다른 단어들에 대한 소프트맥스 확률이 포함되어 있습니다.
- 이 항은 주어진 로짓이 다른 로짓을 지배할 때 (즉, 하나의 로짓이 다른 로짓들에 비해 지나치게 큰 경우) 편도함수가 0이 됩니다.
- 이는 모델이 특정 단어에 대해 다른 단어들을 지배하는 상황에서도 over-confident하지 않도록 하는 역할을 합니다.
따라서 편도함수의 이러한 특성들은 모델이 특정 단어에 대해 지나치게 확신을 갖지 않고, 일관성과 다양성을 높이도록 유도하는 역할을 합니다. 이는 주어진 토픽 모델에서 over-confident 예측을 방지하고, 모델이 더 좋은 토픽을 학습하도록 하는 중요한 메커니즘입니다.
4 Experiments
4.1 Datasets and Evaluation Metrics
- Datasets
3 publicly available datasets: 20NewsGroups, Wiki20K (Bianchi et al., 2021b), and GoogleNews (Qiang et al., 2022)

- Evaluation Metrics
For coherence, we use the NPMI and Word Embedding (WE) (Fang et al., 2016) metrics
For diversity, we use Topic Uniqueness (TU) (Dieng et al., 2020), which measures the proportion of unique topic words, and Inversed Rank-Biased Overlap (I-RBO) (Terragni et al., 2021; Bianchi et al., 2021a), measuring the rank-aware difference between all combinations of topic pairs.
4.2 Baselines
1. ProdLDA (Srivastava and Sutton, 2017)
2. CombinedTM (Bianchi et al., 2021a)
3. ZeroshotTM (Bianchi et al., 2021b)
4. Standard LDA algorithm (Blei et al., 2003)
4.3 Hyperparemeter Settings
4.4 Results
W_C : Basic coherence loss
W_D : Diversity-aware coherence loss
--> W_C를 사용하면 주요한 일관성 향상이 나타나지만, 이는 주제 다양성의 감소와 연결되어 있습니다. 특히, I-RBO와 TU 점수에서 약간의 감소가 나타난다.
--> W_D(다양성 고려 일관성 손실)를 사용하면 W_C에 비해 높은 다양성을 유지하면서 일관성을 향상시키는 것으로 나타난다.
--> λa의 점진적인 증가로 인해 제안된 손실은 원래의 문서-주제 분포 θ에 미치는 영향이 미미하다
--> 이 연구에서는 다양한 일관성 손실 함수를 통해 토픽 모델의 성능을 향상시키는 실험을 수행하고, 특히 다양성과 일관성 사이의 Trade-off 에 대하여 다루고 있다.
4.5 Coherence and Diversity Trade-off

--> 하이퍼파라미터 λ_d 값의 조절을 통해 일관성과 다양성 간의 균형을 탐구 (일관성과 다양성 사이의 균형을 조절하는 데 사용되는 하이퍼파라미터)
--> 20NewsGroups 데이터셋에서의 결과를 보면, λd = 0.7에서 일관성이 최고점에 도달한 후에는 다양성 패널티가 지배하기 시작한다고 나와 있습니다.
--> 더 높은 λd 값은 일관성 점수를 낮추지만, λd의 모든 값에 대해 기준선 대비 일관성과 다양성이 모두 향상된다는 결과를 보여줍니다.
--> λd 값의 조절을 통해 일관성과 다양성 간의 균형을 탐구하고, 실험 결과가 효과적이며 안정적임을 보여주고 있습니다.
4.6 Comparison with Composite Activation
--> 최근 Lim과 Lauw(2022)은 훈련된 모델의 매개변수를 기반으로 토픽을 미세 조정하는 모델-프리 기술을 제안했습니다.
--> 텍스트는 저자들의 목표가 유사하다는 가정하에, 두 방법을 비교하기 위한 추가 평가를 진행했다고 설명하고 있습니다.
--> 두 연구 방향의 비교와 결합에 따른 성능 향상에 대한 결과와 관찰을 설명
--> 비교를 위해 Lim과 Lauw(2022)의 Multi-Dimensional Knapsack Problem(MDKP) 공식을 사용했다고 언급
--> MDKP는 이전 Lim과 Lauw(2022) 연구의 모든 메트릭에서 가장 우수한 성능을 보였기 때문에 선택하였다.
--> MDKP의 성능 및 한계
- MDKP는 자체적으로 높은 토픽 다양성을 달성하지만, MDKP의 NP-hard 런타임 복잡성으로 인해 더 큰 토픽 수에 대한 평가가 어려웠다고 언급하고 있습니다.
- Table 4의 결과에서는 MDKP가 유사한 일관성 점수를 보이지만, 덜 중복된 토픽을 선택함으로써 더 높은 다양성을 달성한다는 것을 확인할 수 있습니다.
--> 제안된 손실과 MDKP의 결합
- MDKP와 저자들의 제안된 손실을 결합한 경우 (+ WD + MDKP) 모든 메트릭에서 가장 뛰어난 성능을 달성한다고 언급하고 있습니다.
- 이는 훈련된 모델을 기반으로 생성된 토픽 후보 풀이 우수한 모델에 의해 더 뛰어난 후보들을 얻게 되기 때문에 예상 가능한 결과입니다.
5 Conclusion and Future Work
이 연구에서는 신경 기반 토픽 모델의 일관성과 다양성을 동시에 향상시키기 위한 새로운 다양성 고려 일관성 손실을 제안한다.
이 방법은 이전의 방법과 대조적으로 말뭉치 수준의 일관성 점수를 신경 토픽 모델의 훈련에 직접 통합합니다.
이 연구에서 수행된 실험은 제안된 방법이 모든 설정에서 성능을 크게 향상시킬 뿐만 아니라 사전 훈련이나 추가 매개변수 없이도 적용 가능하다는 것을 보여준다.
- 다양성 고려 일관성 손실의 특징
- 연구의 핵심은 토픽 모델의 성능을 향상시키기 위해 제안된 다양성 고려 일관성 손실(Diversity-aware Coherence Loss) 에 있습니다.
- 이 방법은 두 가지 중요한 측면, 즉 일관성과 다양성을 동시에 고려하는 것에 초점을 맞추고 있습니다.
- 말뭉치 수준 일관성 점수의 직접 통합
- 연구는 말뭉치 수준의 일관성 점수를 직접 토픽 모델의 훈련에 통합하여 이전 방법과 구별되는 특징을 가지고 있습니다.
- 이는 Neural Topic Model 이 문장 또는 문서 수준의 일관성 뿐만 아니라 말뭉치 전체의 일관성을 개선할 수 있도록 하는 중요한 측면
- 실험적 결과
- 연구에서는 광범위한 실험을 수행하여 제안된 방법이 다양한 설정에서 성능을 크게 향상시키는 것을 보여줍니다.
- 이때 사전 훈련이나 추가 매개변수 없이도 적용 가능하다는 점이 강조되고 있습니다.
- 향후 연구 방향 (Future Work)
- 향후에는 품질 측정 메트릭의 향상이 인간의 선호도에 어떻게 영향을 미치는지 조사하기 위해 광범위한 사용자 연구를 수행할 계획입니다.
- 또한, 제안된 방법을 다양한 양적 메트릭(예: 의미 유사성)에 확장하고, 토픽이 하향식 작업(요약, 대화 모델링, 텍스트 생성 등)에 사용될 때의 효과를 연구할 계획입니다.
이와 같은 연구 방향은 토픽 모델링 분야에서 일관성과 다양성 개선에 대한 새로운 관점과 효과적인 방법을 제시하고 있습니다.
Limitations
- 다국어 처리의 한계
- 연구에서 사용된 공개 데이터셋은 영어로 제한
- 다양한 언어의 문서(예: 중국어)는 다르게 세분화되어야 할 수 있으며 어휘 크기, 데이터 희소성 및 모호성 측면에서 고유한 특성을 가질 수 있습니다.
- 예를 들어, 다른 언어의 경우 세분화 기술이나 어휘 크기에 대한 고려가 필요할 수 있습니다.
- 평가 메트릭의 한계
- 연구에서는 토픽 모델의 품질을 일관성과 다양성의 측면에서만 평가하였습니다. 다만, 향후에는 다른 특성들에 대한 영향을 조사하는 것이 필요합니다.
- 예를 들어, 문서 커버리지(문서가 할당된 토픽과 얼마나 일치하는지)와 토픽 모델의 포괄성(모델이 말뭉치에 나타난 토픽을 얼마나 철저하게 다루는지)와 같은 특성들을 조사할 필요가 있습니다.
- 향후 연구 방향
- 향후 연구에서는 다양한 언어로 된 문서에 대한 처리를 포함하여 더 다양한 데이터셋에 대한 확장이 필요합니다.
- 또한, 문서 커버리지 및 토픽 모델의 포괄성과 같은 다양한 특성에 대한 연구를 통해 메트릭의 향상이나 추가적인 평가 척도를 고려하는 방향으로 나아가야 합니다.