Datasets for GraphRAG Evaluation

2025. 12. 22. 12:29·Research in NLP

Datasets for Multi-Hop Question Answering

  • Multi-hop 추론: 하나의 문서만 봐서는 답을 알 수 없고 서로 다른 문서의 정보를 연결해야 정답 도출 가능
  • 여러 문서(주로 위키피디아 문단)를 넘나들며, 두 단계 이상 추론(multi-hop reasoning)을 해야만 정답에 도달할 수 있음

HotpotQA (EMNLP 2018)

  • Supporting Facts 제공
    • 정답뿐만 아니라 어떤 문장들이 추론에 사용되어야 하는지가 라벨로 포함됨
    • 모델의 reasoning 과정 평가 가능
  • Question Type
    • Bridge-type: 한 엔티티를 매개로 문서를 연결
    • Comparison-type: 두 대상 비교 (더 크다/작다, 먼저이다 등)
  • 정답 형태
    • 단답형 (이름, 숫자 등)
    • Yes / No 질문도 포함

MuSiQue (TACL 2022)

  • MuSiQue
    • HotpotQA처럼 “bridge / comparison”으로 나누지 않습니다.
    • MuSiQue의 multi-hop 질문은 "question_decomposition" 에 들어 있는 단일-hop 질문들을 체계적으로 조합해서 생성됩니다.
    • 2-hop 부터 4-hop 까지의 multi-hop 질문들을 제공합니다.
    • MuSiQue의 multi-hop question은 여러 single-hop sub-questions을 그대로 이어붙인 것이 아니라, 그 의미적 의존관계를 하나의 자연어 질문으로 재구성한 결과입니다.
  • MuSiQue 스타일
    • 중간 엔티티 질문에서 제거
    • 질문은 자연어 하나로 재작성
    • 의존 순서가 단방향으로 보장

UltraDomain [5]

  • UltraDomain Benchmark
    • “추론 구조”가 아니라 “도메인 이동(domain shift)”을 통제 변수로 삼아 QA 시스템의 일반화·강건성을 평가하도록 의도적으로 설계된 벤치마크입니다.
    • UltraDomain은 질문 난이도를 인위적으로 만들지 않고, 훈련–평가 도메인을 분리해 현실적인 OOD(Out-of-Domain) 상황을 재현한다.
  • 특징
    • single-hop처럼 보이는 질문도 있음
    • 사실상 multi-hop이 필요한 질문도 있음
    • 긴 문맥 이해형 질문도 섞여 있음
    • 질문의 난이도는 통제 대상이 아니고, 도메인이 통제 대상

Global Sensemaking Question by Microsoft [4]

  • Global Senemaking
    • 질문 응답(Question Answering, QA) 분야는 멀티홉 추론(multi-hop reasoning) 등에서 상당한 발전을 이루었지만, '글로벌 센스메이킹(global sensemaking)'은 여전히 어려운 Task 입니다.
    • 글로벌 센스메이킹은 대규모 문서 코퍼스 전체의 정보를 종합하여 질의에 대한 답변을 생성하는 작업으로, GraphRAG 의 주요목표이며 이를 평가할 수 있는 질의가 필요하다.
  • Global Sensemaking Query Generation for Evaluating GraphRAG [6]
    • GraphRAG[4], LightRAG[3], ReTAG[6] 의 방법들을 따라서 Global Sensemaking 능력을 평가할 수 있는 Question 을 만들 필요가 있다.
    • Global Sensemaking 을 평가하는 질의의 특성은 Multi-Hop Question 과 유사하지만 완전히 같지 않습니다.
    • 주요 평가 요소: 개별 문서 chunks 을 넘어서 전체 코퍼스에 숨은 의미 구조·원인·패턴을 그래프 기반으로 통합하고 이해하는 능력
    • 각 코퍼스(News Articles, Podcast)에 대해 “global sensemaking”형 쿼리를 GPT-4o API로 재생성(reproduce).
    • 이를 위해 각 코퍼스의 고수준 설명(웹사이트/퍼블리케이션에서 추출)을 LLM에 제공하고, 가상의 사용자(personas)와 과제(tasks)를 함께 만들어 질문을 생성

How to Generate Global Sensemaking Question

  • Global Sensemaking Question 생성을 위해, ReTAG[6] 에서 제공하는 3단계 procedure 를 활용한다.
    • 준비된 문서 설명 (코퍼스에 대한 설명)과 그래프 기반 global sensemaking 에 대한 설명을 LLM에 입력으로 제공
    • Stage1: 가상 사용자 생성 -> 첫 번째 단계로, 전체 문서 모음에서 정보를 종합하여 답변해야 하는 global sensemaking 응답이 필요한 다섯 가지 가상의 사용자 (User = Persona) 를 생성. 가상 사용자 (User) 수는 K = 5.
    • Stage2: 작업(Task) 정의 -> 각 가상 사용자별로, 시스템을 통해 수행할 수 있는 다섯 가지의 구체적인 작업을 정의. 정의하는 Task 수는 N = 5.
    • Stage3: 질문 생성 -> 마지막으로, 각 작업에 대해 다섯 개의 질문을 생성. 즉, M = 5.
    • 따라서, 각 데이터셋별로 총 5 x 5 x 5 = 125개의 질문을 생성하여 이를 통해 GraphRAG 를 평가함
  • 이러한 과정을 통해 생성된 질문들은 특정 문서의 세부 정보가 아닌, 전체 문서 모음의 정보를 종합적으로 이해하고 분석해야만 답변할 수 있는 포괄적이고 넓은 범위의 질문들로 구성, Global Sensemaking 시스템의 성능을 효과적으로 평가하기 위함

[6] ReTAG: Retrieval-Enhanced, Topic-Augmented Graph-Based Global Sensemaking (EMNLP 2025 Findings)

  • Global Sensemaking Question 생성을 위해 Microsoft 가 제안한 방법 [4] 을 그대로 사용하였음.
  • 3가지 Prompt template 공개: User Generation Prompt, Task Generation Prompt, Query Generation Prompt
  • 본 연구에서는 해당 코퍼스의 공개된 소개문서/설명(예: 데이터셋 소개 페이지, 논문 초록 또는 공식 문서)에서 전체 코퍼스의 특징을 요약한 ‘dataset description’을 가져옴.
  • 이 설명문(dataset_description)을 GPT-4o API 프롬프트에 넣어서 1. 가상 사용자(personas) 생성, 2. 작업(tasks) 생성, 3. 질문(queries) 생성 과정을 실행함 (Appendix F.9의 프롬프트 템플릿 사용).

Reference

[1] MuSiQue: Multihop Questions via Single-hop Question Composition (TACL 2022)

[2] MuISQA: Multi-Intent Retrieval-Augmented Generation for Scientific Question Answering

[3] LightRAG: Simple and Fast Retrieval-Augmented Generation (EMNLP 2025 Findings)

[4] From Local to Global: A GraphRAG Approach to Query-Focused Summarization 

[5] https://huggingface.co/datasets/TommyChien/UltraDomain

[6] ReTAG: Retrieval-Enhanced, Topic-Augmented Graph-Based Global Sensemaking (EMNLP 2025 Findings)

'Research in NLP' 카테고리의 다른 글

GraphRAG Survey-2  (0) 2025.12.15
GraphRAG Survey-1: Introduction to Graph RAG  (0) 2025.12.09
Contextual Information and Mutual Dependency between words using document graph  (4) 2024.06.10
논문 읽는 법 , AI 연구를 시작하는 방법 - MIT  (0) 2024.03.07
연구 가설이란 무엇인가 : 좋은 연구 가설을 세우는 방법  (0) 2024.03.07
'Research in NLP' 카테고리의 다른 글
  • GraphRAG Survey-2
  • GraphRAG Survey-1: Introduction to Graph RAG
  • Contextual Information and Mutual Dependency between words using document graph
  • 논문 읽는 법 , AI 연구를 시작하는 방법 - MIT
Seung-won Seo
Seung-won Seo
ML , NLP , DL 에 관심이 많습니다. 반갑습니다 :P
  • Seung-won Seo
    Butterfly_Effect
    Seung-won Seo
    • 분류 전체보기 (77)
      • 일기장 (2)
      • 메모장 (1)
      • Plan (0)
      • To do List (0)
      • Paper Review (32)
      • Progress Meeting (0)
      • Research in NLP (14)
      • Progress for XTM (0)
      • Writing for XTM (0)
      • 논문작성 Tips (12)
      • Study (16)
        • Algorithm (0)
        • ML & DL (7)
        • NLP (2)
        • Statistics (1)
        • Topic Modeling (6)
  • 링크

  • hELLO· Designed By정상우.v4.10.3
Seung-won Seo
Datasets for GraphRAG Evaluation
상단으로

티스토리툴바