[GNN 실험] Text Classification via Graph-based Semi-Supervised Node Classification
Text Classification via Graph-based Semi-Supervised Node Classification
Experimental Setup
Dataset
ECNews 에서 영어문서만 (Only train data)
# documents : 46870
# labels : 6
Model
GCN (Graph Convolutional Network)
Evaluation Metrics
Classification accuracy
Approach
Problem Definition
train data 총 46870개 중에서 각 레이블마다 문서 1000개씩의 레이블만을 활용한다.
즉, train data 46870 개의 문서중에서 6000개문서는 레이블을 활용하고, 나머지 40870 개의 문서의 레이블을 예측하는것을 문제의 목표로 한다. 본 문제를 해결하기 위해 graph 기반의 semi-supervised node classification 관점에서 접근하여 문서들을 각 노드로 정의하고, 그래프 내에서 레이블이 있는 일부 노드들을 활용하여 레이블이 없는 노드들의 레이블을 예측하는것을 목표로 한다.
Graph Construction Methodology
간단하게 문서간의 정보가 담긴 undirected unweighted graph 를 만들어보자.
train data 에 해당하는 각 문서들이 그래프 내에서 노드로 정의한다.
pre-trained SimCSE 모델을 이용하여 문서간 임베딩의 cosine-similarity 를 계산하여 두 문서간의 cosine-similarity 가 threshold 이상일 경우 두 노드를 연결 (즉, adjacency matrix 에서 성분이 1) 하고 threshold 미만일 경우 두 노드간 연결하지 않는다 (즉, adjacency matrix 에서 성분이 0).