Datasets for GraphRAG Evaluation

Research in NLP

Seung-won Seo 2025. 12. 22. 12:29

Supporting Facts 제공
- 정답뿐만 아니라 어떤 문장들이 추론에 사용되어야 하는지가 라벨로 포함됨
- 모델의 reasoning 과정 평가 가능
Question Type
- Bridge-type: 한 엔티티를 매개로 문서를 연결
- Comparison-type: 두 대상 비교 (더 크다/작다, 먼저이다 등)
정답 형태
- 단답형 (이름, 숫자 등)
- Yes / No 질문도 포함

MuSiQue
- HotpotQA처럼 “bridge / comparison”으로 나누지 않습니다.
- MuSiQue의 multi-hop 질문은 "question_decomposition" 에 들어 있는 단일-hop 질문들을 체계적으로 조합해서 생성됩니다.
- 2-hop 부터 4-hop 까지의 multi-hop 질문들을 제공합니다.
- MuSiQue의 multi-hop question은 여러 single-hop sub-questions을 그대로 이어붙인 것이 아니라, 그 의미적 의존관계를 하나의 자연어 질문으로 재구성한 결과입니다.
MuSiQue 스타일
- 중간 엔티티 질문에서 제거
- 질문은 자연어 하나로 재작성
- 의존 순서가 단방향으로 보장

UltraDomain Benchmark
- “추론 구조”가 아니라 “도메인 이동(domain shift)”을 통제 변수로 삼아 QA 시스템의 일반화·강건성을 평가하도록 의도적으로 설계된 벤치마크입니다.
- UltraDomain은 질문 난이도를 인위적으로 만들지 않고, 훈련–평가 도메인을 분리해 현실적인 OOD(Out-of-Domain) 상황을 재현한다.

특징
- single-hop처럼 보이는 질문도 있음
- 사실상 multi-hop이 필요한 질문도 있음
- 긴 문맥 이해형 질문도 섞여 있음
- 질문의 난이도는 통제 대상이 아니고, 도메인이 통제 대상

Global Senemaking
- 질문 응답(Question Answering, QA) 분야는 멀티홉 추론(multi-hop reasoning) 등에서 상당한 발전을 이루었지만, '글로벌 센스메이킹(global sensemaking)'은 여전히 어려운 Task 입니다.
- 글로벌 센스메이킹은 대규모 문서 코퍼스 전체의 정보를 종합하여 질의에 대한 답변을 생성하는 작업으로, GraphRAG 의 주요목표이며 이를 평가할 수 있는 질의가 필요하다.
Global Sensemaking Query Generation for Evaluating GraphRAG [6]
- GraphRAG[4], LightRAG[3], ReTAG[6] 의 방법들을 따라서 Global Sensemaking 능력을 평가할 수 있는 Question 을 만들 필요가 있다.
- Global Sensemaking 을 평가하는 질의의 특성은 Multi-Hop Question 과 유사하지만 완전히 같지 않습니다.
- 주요 평가 요소: 개별 문서 chunks 을 넘어서 전체 코퍼스에 숨은 의미 구조·원인·패턴을 그래프 기반으로 통합하고 이해하는 능력
- 각 코퍼스(News Articles, Podcast)에 대해 “global sensemaking”형 쿼리를 GPT-4o API로 재생성(reproduce).
- 이를 위해 각 코퍼스의 고수준 설명(웹사이트/퍼블리케이션에서 추출)을 LLM에 제공하고, 가상의 사용자(personas)와 과제(tasks)를 함께 만들어 질문을 생성

Global Sensemaking Question 생성을 위해, ReTAG[6] 에서 제공하는 3단계 procedure 를 활용한다.
- 준비된 문서 설명 (코퍼스에 대한 설명)과 그래프 기반 global sensemaking 에 대한 설명을 LLM에 입력으로 제공
- Stage1: 가상 사용자 생성 -> 첫 번째 단계로, 전체 문서 모음에서 정보를 종합하여 답변해야 하는 global sensemaking 응답이 필요한 다섯 가지 가상의 사용자 (User = Persona) 를 생성. 가상 사용자 (User) 수는 K = 5.
- Stage2: 작업(Task) 정의 -> 각 가상 사용자별로, 시스템을 통해 수행할 수 있는 다섯 가지의 구체적인 작업을 정의. 정의하는 Task 수는 N = 5.
- Stage3: 질문 생성 -> 마지막으로, 각 작업에 대해 다섯 개의 질문을 생성. 즉, M = 5.
- 따라서, 각 데이터셋별로 총 5 x 5 x 5 = 125개의 질문을 생성하여 이를 통해 GraphRAG 를 평가함
이러한 과정을 통해 생성된 질문들은 특정 문서의 세부 정보가 아닌, 전체 문서 모음의 정보를 종합적으로 이해하고 분석해야만 답변할 수 있는 포괄적이고 넓은 범위의 질문들로 구성, Global Sensemaking 시스템의 성능을 효과적으로 평가하기 위함

Global Sensemaking Question 생성을 위해 Microsoft 가 제안한 방법 [4] 을 그대로 사용하였음.
3가지 Prompt template 공개: User Generation Prompt, Task Generation Prompt, Query Generation Prompt
본 연구에서는 해당 코퍼스의 공개된 소개문서/설명(예: 데이터셋 소개 페이지, 논문 초록 또는 공식 문서)에서 전체 코퍼스의 특징을 요약한 ‘dataset description’을 가져옴.
이 설명문(dataset_description)을 GPT-4o API 프롬프트에 넣어서 1. 가상 사용자(personas) 생성, 2. 작업(tasks) 생성, 3. 질문(queries) 생성 과정을 실행함 (Appendix F.9의 프롬프트 템플릿 사용).

Reference

[1] MuSiQue: Multihop Questions via Single-hop Question Composition (TACL 2022)

[2] MuISQA: Multi-Intent Retrieval-Augmented Generation for Scientific Question Answering

[3] LightRAG: Simple and Fast Retrieval-Augmented Generation (EMNLP 2025 Findings)

[4] From Local to Global: A GraphRAG Approach to Query-Focused Summarization

[6] ReTAG: Retrieval-Enhanced, Topic-Augmented Graph-Based Global Sensemaking (EMNLP 2025 Findings)