Bhattacharyya Distance
Bhattacharyya distance 는 인도의 통계학자 Bhattacharyya 가 1943년에 제안한 두개의 probability distribution 사이의 similarity measure 이다.
Definition

Bhattacharyya 거리는 두 확률 분포 사이의 중첩을 측정하는 강력한 도구입니다. 높은 값은 두 분포 사이의 유사성이 크다는 것을 나타냅니다. Bhattacharyya 거리는 Bhattacharyya 계수의 음의 로그를 취하여 얻는다. Bhattacharyya 거리는 항상 양수이며 0에서 무한대 사이의 범위를 가진다.
특징 : symmetric , positive definete , triangle inequality 만족 --> 거리 measure
또한 노이즈와 이상치에 강건하며 image matching, object recognition, and data clustering 와 같은 작업에 적합하고 image segmentation, image retrieval, and object tracking 과 같은 컴퓨터 비전 응용 프로그램에서도 널리 사용한다.
Examples : Bhattacharyya Distance
Image segmentation : 이미지 분할에서는 Bhattacharyya 거리를 사용하여 이미지 영역 간의 유사성을 측정. 이 응용에서는 이미지의 서로 다른 영역의 색상이나 질감 히스토그램을 비교하기 위해 Bhattacharyya 거리를 사용하고, 유사성이 높은 영역은 함께 그룹화한다. 이 기술은 야외 장면의 하늘, 지면 및 나무와 같은 다른 영역으로 이미지를 분할하는 데 사용될 수 있다.
Object recognition : Bhattacharyya 거리는 물체 인식에서도 사용된다.
여기서는 이미지 내 물체의 특징 기술자를 비교하기 위해 Bhattacharyya 거리를 사용한다. 특징 기술자에는 색상 히스토그램, SIFT(스케일 불변 특징 변환), 또는 HOG(방향 그래디언트 히스토그램) 특징이 포함될 수 있다. Bhattacharyya 거리는 이미지 내의 물체의 특징 기술자를 데이터베이스에 있는 알려진 물체의 특징 기술자와 일치시키는 데 사용된다.
Data clustering : Bhattacharyya 거리는 데이터 클러스터링 응용 프로그램에서도 사용될 수 있으며, 이 때 유사한 데이터 포인트를 함께 그룹화하는 데 사용된다. 이 응용에서는 서로 다른 데이터 포인트의 확률 분포를 비교하기 위해 Bhattacharyya 거리를 사용하고, 유사성이 높은 데이터 포인트는 함께 클러스터링된다. 이 기술은 구매 패턴에 따라 비슷한 고객을 그룹화하거나 발현 수준에 따라 비슷한 유전자를 그룹화하는 데 사용될 수 있다.
Speech recognition : 음성 인식에서는 부차타차 거리가 음성 신호 간의 유사성을 측정하는 데 사용된다. 이 응용에서는 다른 음성 특징 (예: Mel-frequency cepstral coefficients(MFCCs))의 확률 분포를 비교하기 위해 Bhattacharyya 거리를 사용한다. Bhattacharyya 거리는 알려진 음성 신호의 MFCC 특징과 데이터베이스에 있는 알려진 음성 신호의 MFCC 특징을 일치시키는 데 사용된다.
이러한 응용에서 Bhattacharyya 거리는 확률 분포 사이의 유사성을 효율적으로 정확하게 비교할 수 있도록 해주는 유용한 도구이다.
Limitations
Bhattacharyya 거리는 확률 분포 사이의 유사성을 측정하는 강력한 도구이지만 몇 가지 고려해야 할 제한 사항이 있다.
이상치에 민감함 : 부차타차 거리는 데이터의 이상치에 민감할 수 있습니다. 이상치는 확률 분포를 크게 변화시킬 수 있으며, 결과적으로 분포 사이의 Bhattacharyya거리가 크게 달라질 수 있습니다. 따라서 Bhattacharyya 거리를 사용하기 전에 데이터를 전처리하여 이상치를 제거하는 것이 중요하다.
입력 특징에 대한 의존성 : Bhattacharyya거리의 성능은 확률 분포를 나타내는 데 사용되는 입력 특징의 선택에 따라 달라진다. 다른 특징 선택은 서로 다른 Bhattacharyya 거리를 야기할 수 있으며, 이는 유사성 측정의 정확도에 영향을 줄 수 있습니다. 따라서 정확한 유사성 측정을 위해 입력 특징을 신중하게 선택하는 것이 중요하다.
계산 복잡성 : Bhattacharyya거리는 적분의 계산을 필요로 하므로 고차원 데이터의 경우 계산 비용이 비싸질 수 있다. 따라서 매우 큰 데이터셋에 Bhattacharyya 거리를 사용하는 것은 현실적으로 어려울 수 있다.
노이즈에 대한 비강건성 : Bhattacharyya 거리는 데이터의 노이즈에 영향을 받을 수 있으며, 이는 부정확한 유사성 측정을 야기할 수 있다. 따라서 Bhattacharyya 거리를 사용하기 전에 데이터에서 노이즈를 제거하는 것이 중요하다.
Bhattacharyya 거리는 확률 분포가 연속적이고 잘 정의된 밀도 함수를 가정한다는 점에서 이산적이거나 범주적인 분포를 비교하는 데 사용할 수 없다는 한계가 있다.
또 다른 한계는 Bhattacharyya 거리가 확률 분포의 작은 변화에 민감하다는 것이다. 이는 분포 사이에 작은 차이가 있는 경우 거리 측정의 불안정성을 초래할 수 있다.
Reference