[Paper Review] TopicGPT: A Prompt-based Topic Modeling Framework (NAACL 2024)

2025. 3. 31. 20:39·Paper Review

 

TopicGPT: A Prompt-based Topic Modeling Framework (NAACL 2024)

 

Abstract

  • A prompt-based framework for topic modeling: TopicGPT는 텍스트 데이터에서 숨겨진 주제를 찾기 위해 제안된 프레임워크입니다. 전통적인 방법들은 주제를 단어의 집합으로 표현하기 때문에 주제를 해석하기 어렵고, 주제의 형식이나 구체성을 사용자가 조절할 수 없었습니다.
  • TopicGPT의 기능
    • 프롬프트 기반: TopicGPT는 큰 언어 모델(LLM)을 사용하여 주제를 생성하는 프롬프트 기반 접근 방식을 사용합니다.
      주제의 품질: 인간이 분류한 주제와 비교했을 때, TopicGPT는 0.74의 조화 평균 순도를 달성하며, 기존 모델보다 더 나은 결과를 보여줍니다.
    • 해석 가능성: TopicGPT는 모호한 단어 집합 대신 자연어 레이블과 설명을 사용하여 생성된 주제를 이해하기 쉽게 만듭니다.
      사용자 맞춤화: 사용자는 생성된 주제를 정의할 수 있는 제약 조건을 설정하고, 모델 재학습 없이 주제를 수정할 수 있으며, 이는 높은 유연성을 제공합니다.
  • 성능 비교: TopicGPT는 기존의 주제 모델보다 더 해석 가능하고, 사용자가 원하는 주제를 구체적으로 제어할 수 있어 보다 직관적인 주제 구조를 만듭니다.

1 Introduction

  • Topic modeling: 대량의 텍스트 문서에서 잠재적인 주제 구조를 발견하는 데 사용되는 기법입니다. 전통적인 주제 모델(예: LDA)은 문서를 주제의 혼합으로 표현하며, 각 주제는 단어의 분포로 나타납니다.
  • Motivation
    • 해석상의 어려움: LDA와 같은 전통적인 모델의 결과는 무작위적인 단어들이 포함될 수 있어 해석하기 어렵습니다.
    • 사용자 상호작용: 특정 도메인 지식이나 필요에 기반하여 사용자가 주제를 안내할 수 있는 모델도 존재하지만, 이들 또한 '단어 집합' 형식으로 인해 활용에 제한이 있습니다.
  • TopicGPT 소개: TopicGPT는 대규모 언어 모델(LLM)을 활용하여 주제 생성을 인터랙티브하게 수행하는 접근 방식을 제시합니다.
    • Topic generation: 문서 샘플과 이전에 생성한 주제 목록을 바탕으로 새로운 주제를 반복적으로 생성합니다.
    • Topic assignment: 생성된 주제 중 하나 또는 여러 개를 새로운 문서에 할당하며, 주제 할당을 지원하기 위해 문서에서 인용문도 제공합니다.
    • 검증 가능성: TopicGPT 프레임워크는 전통적인 주제 모델링에서 발생할 수 있는 유효성 문제를 해결합니다.

TopicGPT produces higher-quality topics than competing approaches.

  • TopicGPT의 품질: TopicGPT는 다른 경쟁 방법들보다 높은 품질의 주제를 생성합니다.
  • 주제와 인간 주제의 일치: TopicGPT가 생성한 주제와 인간이 주석한 주제 간의 일치도가 더 높습니다.
    LDA, SeededLDA, BERTopic와 비교하여 사전 정의된 두 데이터셋(위키피디아 기사, 의회 법안)에 대해 더 정확합니다.
  • 정량적 측정: Harmonic Mean Purity: TopicGPT는 위키피디아에 대해 0.74의 점수를 생성했으며, 이는 다른 모델에 비해 더 좋은 성능을 나타냅니다(예: LDA는 0.64).
  • 주제 정렬: TopicGPT의 주제가 인간 라벨 주제와 더 잘 일치합니다. 예를 들어, TopicGPT의 30.3%가 잘못 정렬된 반면, LDA는 62.4%가 잘못 정렬되었습니다.
  • 다양한 평가 지표: 세 가지 외부 클러스터링 메트릭 (harmonic mean purity, normalized mutual information, adjusted Rand index)을 사용하여 주제의 정렬을 측정했습니다.
  • 주제 품질의 강건성: 다양한 프롬프트와 데이터 설정에서도 TopicGPT의 주제 품질이 우수함을 보여줍니다.

TopicGPT produces more interpretable topics.

  • TopicGPT 는 전통적인 주제 모델이 제공하는 모호한 단어 조합 대신 사용자가 이해하기 쉬운 자연어 레이블과 설명을 포함하는 해석 가능한 주제를 생성합니다.
  • 주요 기능: 사용자는 초기 주제의 일부 예시를 제공함으로써 특정 요구에 맞는 주제를 조정할 수 있습니다.
    • 각 문서와 관련된 주제를 선별하여 주제-문서 간의 연결성을 제시하며, 이 과정에서 문서에서 주제를 뒷받침하는 인용을 제공한다.
    • TopicGPT는 명확하고 직관적인 주제 구조를 만드는 것을 목표로 하여, 전체 과정이 해석 가능하도록 만듭니다.

TopicGPT is customizable to fit user needs

  • TopicGPT의 커스터마이징: TopicGPT는 사용자 요구에 맞게 조정이 가능합니다.
  • 주제 해석 가능성: 사용자는 생성된 토픽을 자신의 특정 요구에 맞게 안내할 수 있는 기능을 가집니다.
  • 예시 토픽 제공: 사용자는 초기 숫자의 예시 토픽을 제공하여 생성될 토픽의 범위와 형식을 유저친화적으로 조정할 수 있으며, 이는 데이터에 특정하지 않거나 전체 토픽을 대표할 필요가 없습니다.
  • 결과 검토 후 편집: 초기 결과를 검토한 후, 사용자는 생성된 토픽들에서 수동으로 수정하거나 제거하여 일관성과 목표 지향적인 목록을 큐레이션할 수 있습니다.

Open-source LLMs are competent topic assigners but bad topic generators.

  • Topic generation 능력: Mistral-7B-Instruct 와 같은 Open-source LLM 들은 주제를 생성하는 데는 부족하나, topic assignment 에 있어서는 준수합니다.
  • 비용 문제: 대부분의 실험에서 GPT-4를 사용하여 주제를 생성하고, GPT-3.5-turbo를 사용하여 주제를 할당하는데, 이 과정에서 데이터 세트 당 약 100달러의 비용이 발생하는 비용 문제가 있습니다.
  • 대안 모델: 비용 문제를 해결하기 위해, Mistral-7B-Instruct라는 오픈 소스 LLM 모델을 실험했는데, 이 모델은 주제를 할당하는 데는 좋지만, 주제를 생성하는 데 있어서 지시를 제대로 수행하지 못했습니다.
  • Future work: 오픈 소스 LLM의 주제 생성 능력을 향상시키는 것이 향후 중요한 연구 방향입니다.

2 Related Work

Topic modeling for content analysis

  • 전통적인 주제 모델링 방법: Latent Dirichlet Allocation (LDA)는 문서에서 잠재적인 주제를 발견하기 위해 사용됩니다.
    LDA는 주제-단어와 문서-주제 분포를 이용하여 문서의 주제를 파악합니다.
    그러나 이러한 주제의 표현은 해석하기 어렵습니다.
    주제를 해석하는 과정에서 주관적인 노력이 필요하며, 이로 인해 신뢰성과 유효성의 문제점이 발생할 수 있습니다.
  • TopicGPT 연구
    • 본 연구는 자연어에서 더 해석 가능한 주제를 생성하려는 이전 연구 [3,4,5]를 따릅니다.
    • 본 연구는 Seeded/anchored topic models (SeededLDA [1]), hierarchical topic models [2] 및 주제에 제약을 두는 이전의 방법론들에 기반하고 있습니다.

LLM-based content analysis

  • LLMs: ChatGPT와 같은 LLM은 텍스트 분석에 새로운 접근 방식을 가능하게 했습니다. 이들은 입력된 텍스트를 분석하고 해석하는데 도움을 줍니다.
  • 프롬프트 기법 사용: 연구자들은 LLM에 프롬프트 기법을 활용하여 다음과 같은 관련 내용 분석 작업을 수행했습니다
    • Text clustering: 문서들을 주제별로 그룹화하여 비슷한 내용을 가진 문서들을 묶는 작업.
      Viswanathan et al.(2023), Zhang et al.(2023), Hoyle et al.(2023) 등
    • Abstractive summarization: 문서의 핵심 내용을 간결하게 요약하는 작업, Liu and Healey(2023).
    • deductive qualitative coding: 문서 내에서 주제를 식별하고 분류하는 과정으로, Tai et al.(2023), Chew et al.(2023) 
  • Topic modeling with contextualized embeddings: Sia et al.(2020), Thompson과 Mimno(2020), Bianchi et al.(2021), Grootendorst(2022) 등의 연구에서 사전 훈련된 모델의 임베딩을 사용하여 topic modeling 을 연구.
  • LLM의 레이블링 및 평가: 최근 연구에서는 Rijcken et al.(2023)이 LLM을 통해 주제를 레이블링하고, Stammbach et al.(2023)가 기존의 주제 모델에서 생성된 주제를 평가하는 데 사용.

Comparison to GoalEx

  • TopicGPT는 GoalEx[6] 연구와 가장 유사하지만, topic modeling 에 맞게 특별히 설계되었습니다.
  • 목표: GoalEx는 클러스터링과 corpus partitioning 에 중점을 두지만, TopicGPT는 모든 문서에서 한 번에 모든 주제 프롬프트를 제공하여 효율적인 확장을 목표로 합니다.
  • Topic refinement method: GoalEx는 각 문서가 대략 한 번만 지원되는 클러스터만 유지하는 반면, TopicGPT는 문서들이 어떤 의미에서 함께 나타나는 경우를 고려하여 의미론적으로 topic refinement 합니다. 이로 인해 중복된 클러스터가 제거될 수 있습니다.
  • 성능 평가: GoalEx는 클러스터 recovery 만 평가되지만, TopicGPT는 안정성과 실제 주제와의 정렬을 기준으로 벤치마킹됩니다.
  • 결과 해석: TopicGPT는 텍스트 클러스터링 이상의 유용성을 가진 content analysis 도구로 평가되고 있습니다.

3 Methodology

TopicGPT framework

3.1 Stage 1: Topic Generation

  • 주제 생성 과정: LLM을 사용하여 입력 데이터셋에 대해 주제를 생성합니다. 
    주어진 문서와 기존의 주제 집합을 바탕으로, 모델은 문서에 가장 적합한 기존 주제에 할당하거나, 더 적합한 새로운 주제를 생성하여 주제 집합에 추가합니다.
  • 주제는 간결한 라벨과 설명(예: "Trade: 자본, 상품 및 서비스의 교환을 언급")으로 정의됩니다.
    • 주제예시) Trade: Mentions the exchange of capital, goods, and services
    • TopicGPT 는 주제를 자연어를 통한 설명으로 정의합니다. 문장형태로 주제를 설명합니다.
  • 초기 주제: Seed-guided
    초기 단계에서는 몇 개의 사용자(유저)가 작성한 주제(이 실험에서는 2개의 예시 주제)가 주제 집합을 형성하여 주제 생성 형식을 보여주는 역할을 합니다. 
  • Refineing generated topics: 주제 생성이 완료되면, 주제 리스트를 정제하여 중복되거나 자주 사용되지 않는 주제를 제거합니다.
  • Pre-trained sentence-transformer 기반의 임베딩을 사용하여 코사인 유사도 기반의 유사한 주제 쌍을 찾고, 이를 병합합니다.
    즉, topic diversity 를 높히고, 주제 품질을 개선하기 위한 추가작업입니다.
    발생 빈도가 낮은 마이너 주제(예: 제거 임계값 미달)는 최종 리스트에서 삭제됩니다.

Output: 최종적으로, 어떤 주제가 문서에 할당되었는지와 그 주제에 대한 설명을 포함하여 문서와 주제 간의 유의미한 연관성을 제공합니다. 

 

3.2 Stage2: Topic Assignment

 

  • 목적: 주제 할당 단계에서 생성된 주제와 데이터셋의 문서 사이에 유효하고 해석 가능한 연관성을 설정하는 것이 목표입니다.
  • 작업 흐름: LLM에 주제 리스트 제공: 생성된 주제 리스트와 2-3개의 예시 및 관심 있는 문서를 LLM에 제공합니다.
  • 주제 할당 지시: LLM에 주어진 문서에 대해 하나 이상의 주제를 할당하도록 지시합니다.
  • 최종 출력 구성
    • 할당된 주제 라벨
    • 문서에 특정한 주제 설명
    • 주제 할당을 뒷받침하는 문서에서 인용된 텍스트
  • 인용된 텍스트 제공의 중요성: 문서에서 인용된 텍스트는 TopicGPT의 할당이 신뢰할 수 있다는 것을 개선하는 데 도움을 줍니다.
    이는 기존의 LDA와 같은 전통적인 방법에서 오랫동안 제기되어온 우려사항입니다.
  • 예시) Assigned topic: "Agriculture"
    주제 설명: 농업 수출 요건 변경을 언급 (“...농업 수출 요건 철폐...”)
    Agriculture: Mentions changes in agricultural export requirements (“...repeal of the agricultural export requirements...”)
  • Self-correction: 잘못된 형식이나 품질이 낮은 주제를 수정하기 위한 자기 수정 단계를 포함합니다.
    특정 문서와 오류 유형을 LLM에 제공하여 유효한 주제로 재할당을 유도합니다

4 Experiments

4.1 Datasets

  • Wiki 데이터셋
    14,290개의 위키피디아 문서로 구성되어 있으며, 15개의 high-level, 45개의 mid-level, 279개의 low-level 주제가 human-annotated label 로 있음.
  • Bills 데이터셋
    110~114대 미국 의회의 법안 요약 32,661개로 구성되어 있으며, 21개의 high-level 주제와 114개의 low-level 주제가 human-annotated label 로 있음.

4.2 Baselines

  • LDA: LDA의 안정성과 강한 일치를 강조하며, 다양한 설정에 대해 비교함.
  • BERTopic: 텍스트 문서의 pre-trained SBERT 임베딩을 활용한 클러스터링 기법을 사용.
  • SeededLDA: 사용자 관심 주제에 맞춰 결과를 조정하는 시드 주제를 통합함.

4.3 Sampling documents for TopicGPT

  • 문서 샘플링의 중요성: TopicGPT에서는 주제 생성 과정에 사용되는 문서 수가 매우 중요합니다.
  • 비용 문제: 모든 데이터셋을 사용할 경우 높은 비용이 발생하기 때문에, 전체 코퍼스를 사용하는 것은 비현실적입니다.
    • 샘플링 방법: 따라서 연구에서는 문서의 서브셋을 균등하게 무작위로 샘플링하는 방식을 사용하며, 우리 연구에서는 1,000개의 Bills 문서와 1,100개의 Wiki 문서를 샘플링했습니다.
    • 샘플 수 추천: 사용자에게는 예산에 맞는 샘플 사이즈를 선택하거나, 점진적으로 주제 생성을 수행하고 더 이상 새로운 주제가 생성되지 않을 때(예: 200 문서) 멈출 것을 추천합니다.
  • Topic coverage 평가: 이 접근 방식을 통해 생성된 주제를 평가하고, refinement 과정에서 제거된 주제가 있는지 확인합니다. 두 데이터셋 모두에서 600 문서에 도달한 후 새 주제의 수가 정체됨을 확인했습니다.

4.4 TopicGPT implementation details

 

  • 기본 설정
    • For topic generation: GPT-4를 사용하여 주제를 생성
    • For topic assignment: 문서에 주제를 할당하기 위해 GPT-3.5-turbo를 사용
  • 출력 설정: max_tokens: 최대 출력 토큰 수를 300으로 설정합니다.
  • 문서 처리: 문서의 길이가 LLM의 컨텍스트 윈도우 크기에 맞지 않으면 잘라냅니다.
  • 주제 할당 변경: 'Bills'와 'Wiki' 데이터셋에서는 각 문서에 대해 하나의 주제만 할당하도록 프롬프트를 수정했습니다. 하지만 하나의 할당만 필요하지는 않습니다.
  • 주제 제거 및 self-correction: removal frequency threshold 설정을 'Bills'에 대해 항목 제거 기준을 10으로, 'Wiki'에 대해서는 5로 설정했습니다. 최대 10회 self-correction 기능을 활성화하여 모든 주제 환각 및 포맷 문제를 해결합니다.
  • 평가 데이터 샘플링: Wiki에서 8,024개 문서, Bills에서 15,242개 문서를 샘플링하여 평가합니다. 이 문서들은 주제 생성 샘플에 포함되지 않았습니다.

4.5 Evaluation Setup

 

[7] 연구를 following 하여, 생성된 주제의 alignment / stability 를 평가함.

LDA와 같은 기존의 주제모델링 방법들과 비교하여 예측된 주제 할당과 정확한 주제 레이블 간의 정렬을 평가합니다.

 

4.5.1 Topical alignment

  • Topical alignment 평가: 다음 세 가지의 외부 clustering 성과 측정 metrics 를 사용
    • Purity: 각 정확한 카테고리와 가장 높은 정밀도 및 재현율이 결합된 클러스터를 일치시키는 조화 평균을 사용.
    • Adjusted Rand Index (ARI): 두 세트의 클러스터 간의 쌍별 합의를 측정하는 지표로, 우연의 영향을 수정.
    • Normalized Mutual Information (NMI): 두 세트 간의 정보 공유를 측정하며, 클러스터 수에 민감하지 않도록 정규화를 수행합니다.

문서 할당 방법: 다른논문들의 방법론에서는 각 문서를 가장 확률이 높은 주제에 할당하지만, TopicGPT는 확률기반 모델이 아니기 때문에 예측된 클러스터와 명확한 주제 레이블을 비교하는 방식을 채택함.

 

4.5.2 Stability

  • 강건성 평가(Objective): TopicGPT가 프롬프트와 샘플 데이터에 따른 변화에 얼마나 잘 적응하는지를 테스트합니다.
  • 사용자 맞춤 프롬프트(Out-of-domain prompts): 사용자는 TopicGPT의 프롬프트에 있는 예제 주제를 변경하여 다른 데이터셋에 맞게 조정할 수 있습니다. 연구팀은 Wiki 데이터셋을 위한 프롬프트를 Bills 데이터셋에 적용해보았습니다.
  • 추가 예제 주제(Additional example topics): TopicGPT의 성능을 평가하기 위해, 원래 두 개의 예제 주제에서 세 개의 추가 주제를 포함시켜 프롬프트를 확장했습니다.
  • 문서 샘플 순서 변경(Shuffling sampled documents): Bills에서 주제 생성을 위해 샘플된 문서의 순서를 변경하여, LLM 이 문서를 처리하는 순서의 중요성을 이해하고자 했습니다.
  • 다른 샘플 사용(Using a different sample): TopicGPT의 데이터 이동성에 대한 내성을 평가하기 위해, Bills의 다른 생성 샘플에 TopicGPT를 적용하고 그 결과의 변화를 조사했습니다.

5 Results

5.1 TopicGPT is strongly aligned to ground truth labels

 

  • TopicGPT의 성능
    TopicGPT는 사실과의 주제 일치가 강하며 다양한 제안 및 데이터 변화에 대한 내구성이 뛰어나다고 보고되었습니다.
    TopicGPT가 생성한 주제의 의미적 내용이 실제 주제와 일치하는 정도가 높아서, 두 데이터셋에서 모두 입증되었습니다.

  • 실험 결과
    TopicGPT는 인간이 주석을 단 라벨과 비교했을 때, 주제 일치도에서 더 나은 성과를 보였습니다.
    실험에서 TopicGPT는 Wiki와 Bills 데이터셋에서 LDA, BERTopic, SeededLDA와 같은 다른 기준 방법들과 비교하여 월등한 성능을 나타냈습니다.

  • 주제 할당의 적합성
    TopicGPT는 다수의 문서가 여러 주제에 할당될 수 있음을 보여주며, 이는 기본 설정에서 실제 주제와 일치하지 않는 몇 가지 할당 예제를 살펴봄으로써 확인되었습니다.
    예를 들어, 특정 문서는 "노동" 또는 "교통 안전" 주제에 적합할 수 있으며, TopicGPT는 여러 주제를 할당할 수 있도록 프롬프트를 수정하여 더 적절한 주제를 가져올 수 있음을 밝혔습니다.

  • 추천
    사용자는 여러 라벨 할당 프롬프트를 사용하여 가능한 많은 관련 주제를 추출할 것을 권장합니다

5.2 TopicGPT is stable

 

  • TopicGPT의 성능 
    • TopicGPT는 여러 실험 설정에서 일관성 있는 주제 할당을 생성. 
    • 특정 설정에서 더 많은 예시 주제를 추가한 경우 성능이 가장 나쁘다는 결과가 나타났습니다.
    • 예시 주제가 너무 많으면 모델이 다양한 주제에 맞추려 하다가 topic coherence 가 저하될 수 있음을 나타냄.
  • 예시 주제 수 조정: 예시 주제 리스트는 2-3개의 고품질 주제로 소규모로 유지하는 것이 가장 효과적이라는 권장 사항이 있습니다.
  • 안정성 평가
    • TopicGPT의 주제 할당을 안정적으로 평가하기 위해 기본 설정과 각 수정된 설정 간의 정렬 점수를 계산.
    • TopicGPT는 모든 지표가 0.05 범위 내에서 높게 안정적으로 유지되었으며, LDA보다 높은 안정성
  • 다양한 설정에서의 결과 차이: 동일한 설정에서의 두 번의 출력이 약간의 차이를 보여주며, 이는 결과에 무작위성이 추가되는 자가 수정 과정과 LLM API의 비결정성에 기인할 수 있습니다.

5.3 TopicGPT topics are semantically close to ground truth

  • TopicGPT의 주제 생성 품질을 평가하기 위해, LDA와 TopicGPT의 출력 주제를 비교하는 과정. 이 과정에서 주제가 어떻게 잘못 맞춰질 수 있는지를 분석하며, 다음과 같은 세 가지 잘못 맞춰진 카테고리를 정의합니다
    • Out-of-scope (범위를 벗어난 주제): 생성된 주제가 관련된 실제 주제에 비해 너무 좁거나 넓은 경우.
    • Missing topics (누락된 주제): 생성된 출력물에 포함되지 않으나 실제 주제 목록에는 포함되어 있는 주제.
    • Repeated topics (중복 주제): 다른 주제들과 중복되는 주제들.
  • 이 과정은 세 명의 주석자(첫 번째 저자와 두 명의 외부 주석자)가 생성된 주제의 목록을 검토하며 진행됩니다. 주석자들은 각 주제를 실제 주제 분류에 맞춰 매칭하고, 정확한 매칭이 불가능한 경우 위의 세 가지 카테고리 중 하나로 분류합니다. 이러한 방법을 통해 TopicGPT의 생성 주제와 실제 주제 간의 정합성을 정량적으로 분석하여, 두 시스템의 성능 차이를 명확히 할 수 있습니다.

TopicGPT contains far fewer misaligned topics than LDA, especially after refinement.

  • Topical alignment: TopicGPT는 LDA보다 훨씬 적은 수의 잘못 정렬된 주제를 포함
  • Alignment 비율: LDA의 잘못된 주제 비율은 62.4%인 반면, TopicGPT의 비율은 원래 주제와 정제된 주제에서 각각 38.7%와 30.3%로 나타났습니다.  
  • Topic refinement 효과: 범위를 벗어난 주제와 중복 주제의 수를 일관되게 줄여줍니다.  
  • Missing topic: Refinement 는 Bills 데이터셋에서 1개의 주제("Culture"주제)를 누락시키지만, 이는 사용 사례에 따라 수용 가능할 수 있습니다.  
  • 저자들은 중요한 주제를 필터링하지 않도록 다양한 refinement threshold 을 시도할 것을 권장합니다.  

5.4 Implementing TopicGPT with open-source LLMs

 

  • 본 연구에서는 다양한 언어 모델(LLM)을 활용하여 topic assignment 와 topic generation 을 수행했습니다.
  • Topic assignment
    • Open-source LLM인 Mistral-7B-Instruct를 사용하였고, 이 모델의 결과가 인간의 기준과 어느 정도 일치하는지를 평가했습니다.
    • Mistral 의 주제 할당 결과는 인간의 기준과 꽤 잘 맞았지만, GPT-3.5-turbo보다는 낮은 정확도를 보였습니다. 
  • Topic generation 을 위한 모델로는 GPT-4만이 성공적으로 사용할 수 있었습니다. 다른 모델들은 주제 생성을 위한 복잡한 형식 지시를 따르지 못했습니다.

Mistral-7B-Instruct for topic generation

 

  • Topic modeling: document 에서 주제를 생성하기 위해 Mistral-7B와 GPT-3.5-turbo를 사용하여 실험.
  • 성능 문제: 두 모델 모두 topic generation 에 대해 포맷팅 지침을 따르는데 어려움을 겪음.
  • 주제의 개수
    • Mistral: 1,418개의 주제 생성
    • GPT-3.5-turbo: 151개의 주제 생성
  • 문제점 및 한계점
    • 생성된 주제들이 매우 구체적이고 발생 빈도가 낮아, 단일 주제 할당 프롬프트에 모든 주제를 포함하기 힘듦.
    • 주제 생성에는 GPT-4와 같은 능력을 가진 모델을 사용하는 것이 좋음

6 Future Work

  • TopicGPT의 설계 목적: TopicGPT는 사용자가 데이터셋의 내용을 어느 정도 알고 있을 때 유용한 귀납적 내용 분석을 위한 프레임워크입니다.
  • 사용자가 데이터셋의 내용에 익숙하지 않은 경우에도 적용할 수 있으며, 텍스트 모델을 사용하여 insight 을 얻는 데 도움을 줍니다.
  • Zero-shot prompting 연구: 앞으로의 연구에서는 예시 주제나 문서 없이 TopicGPT를 사용하는 제로샷 프롬프트의 가능성을 탐구할 수 있습니다.
  • 상위 구조 확장: TopicGPT 프레임워크의 계층적 확장은 부록 A에 제공되며, 기존의 hierarchical topic model 과 비교하여 그 성능을 평가하는 것이 중요한 다음 단계가 될 것 입니다.

7 Conclusion

  • TopicGPT 프레임워크
    • TopicGPT는 주제 모델링을 위해 특별히 설계된 프롬프트 기반의 프레임워크입니다. 
    • 전통적인 주제 모델들이 가지고 있는 해석 가능성과 적응성의 한계를 해결하기 위해 고안되었습니다.
  • 기능 및 장점
    • TopicGPT는 고품질의 설명적인 주제를 생성하여 전통적인 주제 모델보다 더 나은 성능을 보여줍니다.
    • 연구 결과에 따르면 TopicGPT는 주제의 진실 레이블과 더 잘 일치하며, 여러 프롬프트와 데이터 서브셋에서도 견고한 성능을 보입니다.
    • 높은 일관성과 이해하기 쉬운 주제 라벨을 제공합니다. 또한 사용자가 주제를 수정할 수 있어 모델의 재학습 없이도 조정이 가능합니다.
  • 실험결과와 성과
    • TopicGPT는 주제 Alignment에서 기존의 강력한 기준 모델보다 더 나은 성과를 보였습니다.
    • 구체적으로, 주제의 정밀도는 기존의 LDA 모델에서 0.64였다면, TopicGPT는 0.74를 기록했습니다. TopicGPT는 명확하고 자연어로 된 주제 설명을 제공하여 사용자가 더 쉽게 이해할 수 있도록 돕습니다.

Limitations

Transparency concerns of closed-source models.

  • TopicGPT의 최적 성능: TopicGPT는 주제 생성에 GPT-4를, 주제 할당에 GPT-3.5-turbo를 이용합니다. 두 모델은 모두 closed-source  LLM 입니다.
  • 오픈 소스 모델 활용: 강력한 오픈 소스 모델을 사용하여 주제 생성을 시도해 보거나, 주제 할당을 위해 LLM을 파인튜닝하는 것을 탐색할 수 있습니다.
  • 현재의 비공식 모델 사용 문제: 비공식 LLM 사용에 따라 발생하는 문제는, closed-source 모델과 open-source 모델 간의 능력의 불균형을 보여주며, 이는 영구적인 제한이 아니라고 생각합니다.
  • 오픈 소스 발전에 대한 기대: 우리는 빠른 오픈 소스 LLM의 발전이 이 문제를 해결해 줄 것이라고 희망합니다.

Cost concerns of closed-source models.

  • 사용자는 특정 데이터셋에 수반되는 주제 목록을 얻는 데 관심이 있는 경우, topic refinement 및 topic assignment 단계를 건너뛰거나 주제 생성에 사용되는 텍스트 코퍼스의 크기를 줄일 수 있습니다. 이러한 방법으로 실행 시간과 비용을 절감할 수 있습니다.
  • Table 11에 따르면, TopicGPT의 사용은 각 실행마다 비용이 발생합니다.

Dealing with context limits.

  • 문서 잘림: TopicGPT는 문서의 길이 제한 때문에 전체 문서를 제공해야 하는데, 제한이 있어 문서의 일부만 제공할 수 밖에 없습니다.
  • 정보 손실: 문서를 짤막하게 해서 제공하기 때문에 중요한 정보가 누락될 수 있으며, 전체 문서의 내용을 잘못 전달할 위험이 있습니다.
  • Future work: 향후 연구에서는 아래와 같은 방법으로 문서의 전체 내용을 다룰 수 있는 전략을 모색할 필요가 있습니다
    • 문서의 일부를 점진적으로 입력하기
    • 대표적인 부분을 샘플링하기
    • 문서의 요약을 제공하기
    • Long-context LLMs: TopicGPT는 GPT-4-turbo (128k 토큰), Claude (200k 토큰), 또는 LLaMA-2-7B-32K (32K 토큰)과 같은 긴 컨텍스트를 지원하는 LLM을 사용하여 이 문제를 해결할 수 있습니다.

Multilinguality.

  • TopicGPT는 비영어 데이터셋에 대한 평가를 수행하지 않았음.
  • OpenAI의 LLM(대형 언어 모델)은 주로 영어 데이터로 사전 훈련되었고, 따라서 비영어 언어에서는 지시 따르기 기능이 현저히 떨어집니다.
  • 비영어 LLM의 다국어 능력이 향상되기를 바라며, 이를 통해 TopicGPT가 더 널리 접근 가능해지기를 희망합니다.

 

Comment

TopicGPT 논문을 읽고 느낀 저의 코멘트는 다음과 같습니다.

저는 TopicGPT 저자들이 본 연구에서 TopicGPT 프레임워크 개발의 가장 큰 동기부여를 "생성한 주제 해석의 어려움" 으로 느꼈다고 이해했습니다. 따라서 TopicGPT 가 생성하는 주제들은 기존의 모든 topic model 과는 다른 방식으로 주제를 생성합니다. 그 방식이 주제를 자연어로 표현하는 것 입니다. 따라서 이런 방식 때문에, 대부분의 많은 topic model 연구들과 실험결과를 평가하는 방식 또한 많이 다릅니다. 제 개인적인 생각으로 TopicGPT 연구에서 잘한점과 아쉬운점을 꼽으면 다음과 같습니다.

 

잘한점: 기존의 topic model 들과는 완전히 다른 방식의 해석성이 높은 주제를 생성하는 새로운 LLM 기반의 topic modeling framework 를 제안하였다. 

 

아쉬운점: 주제를 생성하는데 높은 비용이 든다. 논문에서도 직접 언급하지만 open-source LLM 은 prompt 기반으로 주제를 생성하는데 퀄리티가 저조하다고 직접 설명합니다. 따라서 저자들은 GPT-4 를 사용하였습니다. 제 개인적인 생각으로, topic modeling 태스크에 이정도의 비용을 지불하는게 맞나 하는 생각이 많이 듭니다. 하지만 open-source LLM 은 계속 발전하고 있으므로 이는 시간이 해결해줄 수 있는 문제라고 저자들이 주장합니다. 

 

마지막으로, TopicGPT 의 연구의 quality 를 떠나서 이 프레임워크를 앞으로 다른 topic model 연구에서 이 모델을 실험 baseline 에 포함시킬 수 있을지 이부분이 큰 의문이 듭니다. 왜냐면 생성된 주제 자체의 형식(?)자체가 매우 다르니까 평가가 쉽지 않습니다. TopicGPT 저자들도 논문에서 Wiki, Bills 두개의 데이터셋으로 평가를 했는데 저 벤치마크들은 ground truth topic 이 이미 있었던 벤치마크 같은데 저런 벤치마크는 거의 존재하지 않는 것으로 알고 있습니다. 물론 제가 모르는 것 일 수 있습니다. 그렇다고 앞으로 topicGPT 이후로 나올 topic model 연구들이 전부다 TopicGPT 의 방식을 따라가지는 않을테니 말입니다. 실제로 Fastopic (Neurips 2024) 논문만 보더라도 TopicGPT 가 발표된 이후에 나왔지만 그냥 기존의 여러 topic model 과 같은 형식의 주제를 생성하는 모델입니다. 평가 방식또한 이전의 수많은 연구들과 마찬가지로 그대로였습니다. 이것과 별개로 TopicGPT 를 통해 실험하는것은 다른 topic model 들에 비하여 돈도 매우 많이 듭니다.

 

Reference

[1] Incorporating Lexical Priors into Topic Models (EACL 2012)

[2] Nested hierarchical dirichlet processes (PAMI 2014)

[3] Mei et al.2007. Automatic labeling of multinomial topic models

[4] Lau et al.2011. Automatic Labelling of Topic Models

[5] Automatic labeling of topic models using text summaries (ACL 2016)

[6] Goal-Driven Explainable Clustering via Language Descriptions (EMNLP 2023)

[7] Are Neural Topic Models Broken? (EMNLP 2022)

'Paper Review' 카테고리의 다른 글

[Paper Review] Enhancing Short-Text Topic Modeling with LLM-Driven Context Expansion and Prefix-Tuned VAEs (EMNLP 2024)  (0) 2025.04.18
[Paper Review] Improved Graph Contrastive Learning for Short Text Classification (AAAI 2024)  (0) 2025.04.15
[Paper Review] KDMCSE: Knowledge Distillation Multimodal Sentence Embeddings with Adaptive Angular margin Contrastive Learning (NAACL 2024)  (0) 2025.03.30
[Paper Review] MCSE: Multimodal Contrastive Learning of Sentence Embeddings (NAACL 2022)  (0) 2025.03.30
[Paper Review] Density Matching for Bilingual Word Embedding (NAACL 2019)  (0) 2024.07.31
'Paper Review' 카테고리의 다른 글
  • [Paper Review] Enhancing Short-Text Topic Modeling with LLM-Driven Context Expansion and Prefix-Tuned VAEs (EMNLP 2024)
  • [Paper Review] Improved Graph Contrastive Learning for Short Text Classification (AAAI 2024)
  • [Paper Review] KDMCSE: Knowledge Distillation Multimodal Sentence Embeddings with Adaptive Angular margin Contrastive Learning (NAACL 2024)
  • [Paper Review] MCSE: Multimodal Contrastive Learning of Sentence Embeddings (NAACL 2022)
Seung-won Seo
Seung-won Seo
ML , NLP , DL 에 관심이 많습니다. 반갑습니다 :P
  • Seung-won Seo
    Butterfly_Effect
    Seung-won Seo
    • 분류 전체보기 (76)
      • 일기장 (2)
      • 메모장 (1)
      • Plan (0)
      • To do List (0)
      • Paper Review (32)
      • Progress Meeting (0)
      • Research in NLP (13)
      • Progress for XTM (0)
      • Writing for XTM (0)
      • 논문작성 Tips (12)
      • Study (16)
        • Algorithm (0)
        • ML & DL (7)
        • NLP (2)
        • Statistics (1)
        • Topic Modeling (6)
  • 링크

  • hELLO· Designed By정상우.v4.10.3
Seung-won Seo
[Paper Review] TopicGPT: A Prompt-based Topic Modeling Framework (NAACL 2024)
상단으로

티스토리툴바