[GNN 실험] Text Classification via Graph-based Semi-Supervised Node Classification

Study/ML & DL

[GNN 실험] Text Classification via Graph-based Semi-Supervised Node Classification

Seung-won Seo 2024. 11. 24. 19:15

Text Classification via Graph-based Semi-Supervised Node Classification

Experimental Setup

Dataset

ECNews 에서 영어문서만 (Only train data)

# documents : 46870

# labels : 6

Model

GCN (Graph Convolutional Network)

Evaluation Metrics

Classification accuracy

Approach

Problem Definition

train data 총 46870개 중에서 각 레이블마다 문서 1000개씩의 레이블만을 활용한다.

즉, train data 46870 개의 문서중에서 6000개문서는 레이블을 활용하고, 나머지 40870 개의 문서의 레이블을 예측하는것을 문제의 목표로 한다. 본 문제를 해결하기 위해 graph 기반의 semi-supervised node classification 관점에서 접근하여 문서들을 각 노드로 정의하고, 그래프 내에서 레이블이 있는 일부 노드들을 활용하여 레이블이 없는 노드들의 레이블을 예측하는것을 목표로 한다.

Graph Construction Methodology

간단하게 문서간의 정보가 담긴 undirected unweighted graph 를 만들어보자.

train data 에 해당하는 각 문서들이 그래프 내에서 노드로 정의한다.

pre-trained SimCSE 모델을 이용하여 문서간 임베딩의 cosine-similarity 를 계산하여 두 문서간의 cosine-similarity 가 threshold 이상일 경우 두 노드를 연결 (즉, adjacency matrix 에서 성분이 1) 하고 threshold 미만일 경우 두 노드간 연결하지 않는다 (즉, adjacency matrix 에서 성분이 0).