Text Classification via Graph-based Semi-Supervised Node Classification
Experimental Setup
Dataset
ECNews 에서 영어문서만 (Only train data)
# documents : 46870
# labels : 6
Model
GCN (Graph Convolutional Network)
Evaluation Metrics
Classification accuracy
Approach
Problem Definition
train data 총 46870개 중에서 각 레이블마다 문서 1000개씩의 레이블만을 활용한다.
즉, train data 46870 개의 문서중에서 6000개문서는 레이블을 활용하고, 나머지 40870 개의 문서의 레이블을 예측하는것을 문제의 목표로 한다. 본 문제를 해결하기 위해 graph 기반의 semi-supervised node classification 관점에서 접근하여 문서들을 각 노드로 정의하고, 그래프 내에서 레이블이 있는 일부 노드들을 활용하여 레이블이 없는 노드들의 레이블을 예측하는것을 목표로 한다.
Graph Construction Methodology
간단하게 문서간의 정보가 담긴 undirected unweighted graph 를 만들어보자.
train data 에 해당하는 각 문서들이 그래프 내에서 노드로 정의한다.
pre-trained SimCSE 모델을 이용하여 문서간 임베딩의 cosine-similarity 를 계산하여 두 문서간의 cosine-similarity 가 threshold 이상일 경우 두 노드를 연결 (즉, adjacency matrix 에서 성분이 1) 하고 threshold 미만일 경우 두 노드간 연결하지 않는다 (즉, adjacency matrix 에서 성분이 0).
'Study > ML & DL' 카테고리의 다른 글
| Bayesian Estimation (2) | 2024.11.27 |
|---|---|
| Graph Contrastive Learning (GCL) - (1) Introduction (2) | 2024.06.02 |
| Graph Representation Learning - (2) Node Embedding & Basic GNN (2) | 2024.05.30 |
| Graph Representation Learning - (1) 그래프 구조의 기초 (0) | 2024.05.30 |
| Softmax Function (0) | 2024.03.09 |