Datasets for GraphRAG Evaluation
·
Research in NLP
Datasets for Multi-Hop Question AnsweringMulti-hop 추론: 하나의 문서만 봐서는 답을 알 수 없고 서로 다른 문서의 정보를 연결해야 정답 도출 가능여러 문서(주로 위키피디아 문단)를 넘나들며, 두 단계 이상 추론(multi-hop reasoning)을 해야만 정답에 도달할 수 있음HotpotQA (EMNLP 2018)Supporting Facts 제공정답뿐만 아니라 어떤 문장들이 추론에 사용되어야 하는지가 라벨로 포함됨모델의 reasoning 과정 평가 가능Question TypeBridge-type: 한 엔티티를 매개로 문서를 연결Comparison-type: 두 대상 비교 (더 크다/작다, 먼저이다 등)정답 형태단답형 (이름, 숫자 등)Yes / No 질문도 포..
Why we need GraphRAG: Traditional RAG vs. GraphRAG
·
Study/NLP
Background: Traditional RAG SystemKnowledge Organization: Preparing Metadata.일반적인 전략: Text Chunking방대한 텍스트 코퍼스(corpus)를 관리하기 쉬운 '청크(chunks)'라는 작은 단위로 분할.이 청크들은 임베딩(embedding) 모델을 사용하여 벡터(vector) 표현으로 변환됩니다.이렇게 생성된 임베딩은 벡터 데이터베이스(vector database)에서 원본 텍스트 청크의 '키(key)' 역할을 합니다.Semantic Chunking: 시맨틱 공간(semantic space)에서의 거리 기반 검색(distance-based search)을 통한 효율적인 정보 조회 및 검색이 가능해집니다.지식 구성 최적화: 검색 전 단..
GraphRAG Survey-2
·
Research in NLP
Domain-specific KG ConstructionGoal인간의 개입을 최소화 하면서 신뢰할 수 있는 domain 특화된 KG를 구축Cost-Effective KG construction methodSAC-KG: Exploiting Large Language Models as Skilled Automatic Constructors for Domain Knowledge Graphs (ACL 2024)LLM을 도메인 전문가처럼 활용하여 전문적이고 정밀한 다단계(multi-level) KG를 자동으로 생성하는 프레임워크 구축이 목표엔티티를 추출하여 각 엔티티는 이미 정의되어 있다고 가정함SAC-KG: Generator + Verifier + Pruner GeneratorDomain Corpora Ret..
GraphRAG Survey-1: Introduction to Graph RAG
·
Research in NLP
OverviewGraph RAG workflow 이해하기지식그래프(KG)를 어떻게 설계하는가 ?지식그래프 설계 자체가 정해진 틀을 무조건 따를 필요는 없다 -> 신뢰할 수 있는 그래프 구축의 필요성[5] LinearRAG: Linear Graph Retrieval Augmented Generation on Large-scale Corpora -> Tri-Graph 방법론 제시Knowledge Graph vs. Tri-Graph도메인 특화된 지식 그래프는 어떻게 설계할까 ?의료도메인: [4] Medical Graph RAG: Evidence-based Medical Large Language Model via Graph Retrieval-Augmented Generation (ACL 2025)UMLS(Un..
[Paper Review] Groupwise Query Specialization and Quality-Aware Multi-Assignmentfor Transformer-based Visual Relationship Detection (CVPR 2024)
·
Paper Review
Groupwise Query Specialization and Quality-Aware Multi-Assignmentfor Transformer-based Visual Relationship Detection (CVPR 2024)AbstractVisual Relationship Detection (VRD)은 이미지 내 객체들 [주체 (subject), 객체 (object)] 과 그들 사이의 관계(relationship)를 감지하는 컴퓨터 비전의 중요한 task입니다. 최근 Transformer 기반 아키텍처가 VRD 분야에서 상당한 발전을 이루었지만, 연구자들은 Transformer 기반 VRD 모델을 훈련하는 데 사용되는 기존의 라벨 할당 방식에서 두 가지 주요한 한계를 발견했습니다.기존의 라벨 할당 ..
[Paper Review] CEMTM: Contextual Embedding-based Multimodal Topic Modeling (EMNLP 2025)
·
Paper Review
CEMTM: Contextual Embedding-based Multimodal Topic ModelingAmirhossein Abaskohi, Raymond Li, Chuyuan Li, Shafiq Joty, Giuseppe CareniniAbstractCEMTM: 텍스트와 이미지를 모두 포함하는 짧고 긴 문서에서 일관성 있고(coherent) 해석 가능한(interpretable) 토픽 구조를 추론하도록 설계된 "context-enhanced multimodal topic model"입니다.모델의 주요 구성 요소 및 작동 방식Fine-tuned LVLMs 활용: Fine-tuned Large Vision Language Models (LVLMs)를 기반으로 문맥화된 임베딩(contextualized ..
[Paper Review] Encryption-Friendly LLM Architecture (ICLR 2025)
·
Paper Review
Encryption-Friendly LLM Architecture (ICLR 2025)Donghwan Rho*, Taeseong Kim*, Minje Park, Jung Woo Kim, Hyunsik Chae, Ernest K. Ryu† , Jung Hee Cheon†ABSTRACT문제 제기: 사용자 상호작용을 기반으로 개인 맞춤 응답을 제공하는 LLM 서비스는 편리하지만, 이 과정에서 사용자의 민감한 데이터가 노출될 수 있다는 심각한 프라이버시 문제를 야기합니다. 동형암호(HE) 소개: HE는 암호화된 상태에서 산술 연산을 수행할 수 있는 암호화 프로토콜로, 데이터 프라이버시를 보호하면서 머신러닝을 수행하는 프라이버시 보존 머신러닝(PPML) 분야의 잠재적 해결책으로 주목받고 있습니다. HE 외에도 P..
[Paper Review] Toward Privacy-preserving Text Embedding Similarity with Homomorphic Encryption (EMNLP 2022 Workshop)
·
Paper Review
Toward Privacy-preserving Text Embedding Similarity with Homomorphic Encryption [EMNLP 2022 Workshop (FinNLP)]Donggyu Kim, Garam Lee, Sungwoo OhAbstract텍스트 임베딩의 중요성 및 개인 정보 보호 문제텍스트 임베딩(Text Embedding): 텍스트를 숫자로 된 벡터(vector) 형태로 변환하는 필수적인 기술입니다. 이를 통해 검색 엔진이나 챗봇과 같은 자연어 처리(NLP) 애플리케이션에서 텍스트 간의 유사성을 효율적으로 계산할 수 있습니다.민감 산업의 개인 정보 보호 요구: 금융 및 헬스케어와 같은 특정 산업에서는 사용자 데이터가 서비스 제공자를 포함한 잠재적인 악의적 사용자에게 노..