데이터분석 정보

데이터분석 비지도학습 검증 방법 모음

로그미 2021. 12. 5. 10:11

오늘은 비지도학습 기법인

클러스터링 알고리즘의

성능을 검증할 수 있는 방법을

알려드리려 합니다

정답이란 게 없는

비지도학습 기법이긴 하지만

그래도 다양한 관점에서

검증은 할 수 있기에

오늘 그 검증 방법

찬찬히 알려드릴게요 :)

© geralt, 출처 Pixabay

 

예측 모형의 경우에는

정해진 답이 있기 때문에

그 답을 얼마나 잘~ 맞췄는지

기준으로 검증하면

너무나 명확하고 좋은데

클러스터링같이

비지도 학습 기법들은

정해진 답이 없어서

검증하기가 참 까다롭죠?

© sigmund, 출처 Unsplash

 

비지도 학습이라는

용어가 낯선 분들을 위해

간략하게 설명 먼저 드릴게요

 

지도 학습

Supervised Learning

정해진 답(라벨)이 있는 데이터의 경우

분류 혹은 예측 모형이 지도 학습에 속함

 

 

 

비지도 학습

Unsupervised Learning

정해진 답이 없는 데이터의 경우

군집 모형(클러스터링)이 비지도 학습에 속함

 

이 외에도

Semi-supervised Learning 등도 있지만 일단

맞추고자 하는 답이 있는지 없는 거지로 구분된다

이 정도로 이해하고 계시면 됩니다

© Firmbee, 출처 Pixabay

 

 

그러면 바로

클러스터링 검증 방안

알려드릴게요

사실 정확한 검증 값이

존재하다고 볼 수는 없지만

군집을 하는 목적과

알고리즘의 개념에 비추어 볼 때

아래와 같은 검증 기법을 차용할 수는 있습니다

다만, 거리 계산 기반의 검증 방안이기 때문에

알고리즘 특성에 따라

정확한 검증 방안은 아닐 수 있습니다

© doctype, 출처 Unsplash

 


1. 실루엣

Silhouette Value


 

 

한 군집 안의 개체들이 다른 군집과 비교해서

얼마나 비슷한가를 나타내는 것

 

군집 안에서는 거리가 짧을수록 좋고

다른 군집과는 거리가 멀수록 좋습니다

© itssammoqadam, 출처 Unsplash

 


2. Elbow Method


 

군집의 수를 순차적으로 늘려가면서

군집 내 분산의 추이를 살펴보는 기법

 

 

 

군집 내 분산이 점차 감소하다가

급격하게 감소하는 비율이 낮아지는 부분이

최적의 군집 수에 해당한다고 보시면 됩니다

© uxindo, 출처 Unsplash

 


3. Gap Statistic


 

 


군집 내 개체가 흩어져 있는 정도 및

군집 내 유사성을 반영

 

Gap 통계량을 극대화하는 군집의 수 k는

군집 내 유사성이 가장 높은 경우에 해당합니다

© joelfilip, 출처 Unsplash

 

이렇게 검증 방법 3가지

소개해드렸는데요

하지만 솔직히 말씀드리면

실무에서는 잘 활용하지 않습니다

ㅎㅎㅎ

프로파일링을 통해서

1) 군집의 성격이 잘 드러나는지,

2) 드러난 군집의 특징이 마케팅 등에

활용하기에 적합한지 등

비즈니스적인 의사결정을 중심으로

클러스터의 개수가 정해지는 게

현실이라고 보시면 돼요 ㅎㅎ

하지만 그래도 역시 보고서 등에는

통계적으로 검증했다는 걸

명시해야 하는 경우가 있기 때문에

알아 두시는 게 좋아요

기법에 대한 설명은 아랫글에서 :)

2021.11.30 - [데이터분석 정보] - 빅데이터 클러스터링 기법 top 3