오늘은 비지도학습 기법인
클러스터링 알고리즘의
성능을 검증할 수 있는 방법을
알려드리려 합니다
정답이란 게 없는
비지도학습 기법이긴 하지만
그래도 다양한 관점에서
검증은 할 수 있기에
오늘 그 검증 방법
찬찬히 알려드릴게요 :)

예측 모형의 경우에는
정해진 답이 있기 때문에
그 답을 얼마나 잘~ 맞췄는지
기준으로 검증하면
너무나 명확하고 좋은데
클러스터링같이
비지도 학습 기법들은
정해진 답이 없어서
검증하기가 참 까다롭죠?

비지도 학습이라는
용어가 낯선 분들을 위해
간략하게 설명 먼저 드릴게요
지도 학습
Supervised Learning
정해진 답(라벨)이 있는 데이터의 경우
분류 혹은 예측 모형이 지도 학습에 속함
비지도 학습
Unsupervised Learning
정해진 답이 없는 데이터의 경우
군집 모형(클러스터링)이 비지도 학습에 속함
이 외에도
Semi-supervised Learning 등도 있지만 일단
맞추고자 하는 답이 있는지 없는 거지로 구분된다
이 정도로 이해하고 계시면 됩니다

그러면 바로
클러스터링 검증 방안
알려드릴게요
사실 정확한 검증 값이
존재하다고 볼 수는 없지만
군집을 하는 목적과
알고리즘의 개념에 비추어 볼 때
아래와 같은 검증 기법을 차용할 수는 있습니다
다만, 거리 계산 기반의 검증 방안이기 때문에
알고리즘 특성에 따라
정확한 검증 방안은 아닐 수 있습니다

1. 실루엣
Silhouette Value

한 군집 안의 개체들이 다른 군집과 비교해서
얼마나 비슷한가를 나타내는 것
군집 안에서는 거리가 짧을수록 좋고
다른 군집과는 거리가 멀수록 좋습니다

2. Elbow Method

군집의 수를 순차적으로 늘려가면서
군집 내 분산의 추이를 살펴보는 기법
군집 내 분산이 점차 감소하다가
급격하게 감소하는 비율이 낮아지는 부분이
최적의 군집 수에 해당한다고 보시면 됩니다

3. Gap Statistic

군집 내 개체가 흩어져 있는 정도 및
군집 내 유사성을 반영
Gap 통계량을 극대화하는 군집의 수 k는
군집 내 유사성이 가장 높은 경우에 해당합니다

이렇게 검증 방법 3가지
소개해드렸는데요
하지만 솔직히 말씀드리면
실무에서는 잘 활용하지 않습니다
ㅎㅎㅎ
프로파일링을 통해서
1) 군집의 성격이 잘 드러나는지,
2) 드러난 군집의 특징이 마케팅 등에
활용하기에 적합한지 등
비즈니스적인 의사결정을 중심으로
클러스터의 개수가 정해지는 게
현실이라고 보시면 돼요 ㅎㅎ
하지만 그래도 역시 보고서 등에는
통계적으로 검증했다는 걸
명시해야 하는 경우가 있기 때문에
알아 두시는 게 좋아요
기법에 대한 설명은 아랫글에서 :)
'데이터분석 정보' 카테고리의 다른 글
파이썬 아나콘다 설치 step by step (0) | 2021.12.07 |
---|---|
엑셀 데이터분석 기능 추가하는 방법 (0) | 2021.12.06 |
딥러닝 코딩 구글 코랩 이용하기 (0) | 2021.12.04 |
캐글 머신러닝 대회 나가기 (3) | 2021.12.03 |
머신러닝 딥러닝 차이 쉽게 알아보자 (0) | 2021.12.03 |