Why we need GraphRAG: Traditional RAG vs. GraphRAG
·
Study/NLP
Background: Traditional RAG SystemKnowledge Organization: Preparing Metadata.일반적인 전략: Text Chunking방대한 텍스트 코퍼스(corpus)를 관리하기 쉬운 '청크(chunks)'라는 작은 단위로 분할.이 청크들은 임베딩(embedding) 모델을 사용하여 벡터(vector) 표현으로 변환됩니다.이렇게 생성된 임베딩은 벡터 데이터베이스(vector database)에서 원본 텍스트 청크의 '키(key)' 역할을 합니다.Semantic Chunking: 시맨틱 공간(semantic space)에서의 거리 기반 검색(distance-based search)을 통한 효율적인 정보 조회 및 검색이 가능해집니다.지식 구성 최적화: 검색 전 단..
Bayesian Estimation
·
Study/ML & DL
베이지안 철학의 모티브는 다음과 같다.만약 우리가 에 대한 사전(prior) 정보를 알고 있다면 이는 더 나은 추정에 활용될 수 있다. 하지만 이를 위해서는 에 대한 prior pdf가 미리 주어져 있거나 계산할 수 있어야 한다.Bayesian 추정은 MVUE를 찾는 것이 불가능한 경우 사용하기 좋은 방법이다. 예를 들어 특정 불편추정값(unbiased estimator)의 분산이 다른 불편추정값들의 분산보다 일관되게 작지 않은 경우를 생각해보자. 이런 경우 고전적인 방법으로는 MVUE를 찾는 것이 불가능하므로 파라미터 에 pdf를 적용함으로써 우리는 그 추정값 을 찾는 방법을 생각할 수 있다. 가 다른 추정값들보다 평균제곱오차(MSE)가 작다면 이는 최적의 추정값이라고 결론지을 수 있다. 즉, 파라미터..
[GNN 실험] Text Classification via Graph-based Semi-Supervised Node Classification
·
Study/ML & DL
Text Classification  via Graph-based Semi-Supervised Node Classification Experimental Setup  Dataset ECNews 에서 영어문서만 (Only train data)# documents : 46870# labels : 6  Model GCN (Graph Convolutional Network)  Evaluation Metrics Classification accuracy  Approach Problem Definition train data 총 46870개 중에서 각 레이블마다 문서 1000개씩의 레이블만을 활용한다.즉, train data 46870 개의 문서중에서 6000개문서는 레이블을 활용하고, 나머지 40870 개의 문서..
Graph Contrastive Learning (GCL) - (1) Introduction
·
Study/ML & DL
Introduction to Graph Contrastive Learning (GCL) Graph Contrastive Learning (GCL) 이란 , Self-supervised graph representation learning 의 기법중 하나입니다. 일반적인 contrastive learning (대조학습) 과 그 목표와 방법이 거의 동일합니다.그래프 혹은 노드 level 에서 , 유사한 graph (positive pair) 를 가까이 representation (pull close) 하고 , 그렇지 않은 graph (negative pair) 를 멀리 representation (push away) 하는 학습방법 입니다. 일반적으로 GCL 에서는 동일한 그래프/노드의 view 를 posit..
Graph Representation Learning - (2) Node Embedding & Basic GNN
·
Study/ML & DL
Node Embedding 그래프 데이터에서 node 를 임베딩하는 방법에는 다양하게 있습니다.노드 임베딩이란 , 그래프는 일반적으로 non-euclidean space 에 존재하는데 이를 그래프안에 있는 각 노드들을 euclidean space (저차원공간) 에 임베딩해주는것 입니다. 그러면 노드임베딩의 목표는 , 유사한 노드는 embedding space 에서 근처에 위치하게 임베딩해주는 것 입니다. Node Embedding 에는 크게 두가지 방법이 있습니다.Shallow embedding method : Node2Vec , DeepWalk , LINE , ... Neural net-based method  Shallow Embedding Method  Shallow embedding method ..
Graph Representation Learning - (1) 그래프 구조의 기초
·
Study/ML & DL
Basic Graph theory for Machine Learning    그래프의 구성 요소 : 노드(node) , 엣지(edge) , edge weight(가중치) , 노드와 노드 사이의 방향(direction) , Self-connection 이때 , 방향과 가중치, 그리고 self-connection 는 있어도 되고 없어도 됩니다. 이는 사용자가 graph 구조의 data structure 를 define (graph construction) 하기 나름입니다. 따라서 그래프에서 노드끼리의 방향성의 유무에 따라 Directed graph / Undirected graph 로 나뉩니다.가중치가 있는 그래프일 경우 , Weighted graph 가 됩니다.  How to represent a gra..
Topic Modeling with Contrastive Learning papers
·
Study/Topic Modeling
Topic Modeling 연구에서 contrastive learning 을 활용하거나 혹은 관련있는 연구논문 리스트를 정리하였습니다. Contrastive Learning for Neural Topic Model (Neurips 2021) Mitigating Data Sparsity for Short Text Topic Modeling by Topic-Semantic Contrastive Learning (EMNLP 2022) Improving topic disentanglement via contrastive learning (Information Processing & Management 2023) Unified Neural Topic Model via Contrastive Learning and ..
Bhattacharyya Distance
·
Study/Statistics
Bhattacharyya distance 는 인도의 통계학자 Bhattacharyya 가 1943년에 제안한 두개의 probability distribution 사이의 similarity measure 이다. Definition Bhattacharyya 거리는 두 확률 분포 사이의 중첩을 측정하는 강력한 도구입니다. 높은 값은 두 분포 사이의 유사성이 크다는 것을 나타냅니다. Bhattacharyya 거리는 Bhattacharyya 계수의 음의 로그를 취하여 얻는다. Bhattacharyya 거리는 항상 양수이며 0에서 무한대 사이의 범위를 가진다. 특징 : symmetric , positive definete , triangle inequality 만족 --> 거리 measure 또한 노이즈와 이상치에..