데이터분석 정보

빅데이터 클러스터링 기법 top 3

로그미 2021. 11. 30. 11:05

 

오늘은 빅데이터 분석 기법에 대해서

간략하게 알려드리겠습니다

분석 기법은 예측을 할 것인지

분류를 할 것인지

아니면 어떤 유형화를 할 것인지 등에

따라서 정말 다양한데요

오늘은 유형화를 할 수 있는

클러스터링 기법에 대해서

몇 가지 소개해드릴게요

© sigmund, 출처 Unsplash ​

 


클러스터링 기법이란?

 

많은 기업에서 한 번쯤은 꼭 하는 게

무엇인지 아시나요?

바로 고객 세분화인데요

수백, 수만, 수천 명의 고객들의

특징을 파악하고 각 고객에게

적합한 마케팅을 하기 위해

혹은 고객 관리 전략을 세우기 위해서

많은 기업에서 꼭 하고 있는 분석입니다

온라인 쇼핑몰 가입하시면

가입할 당시에는 일반 회원이지만

구매 금액이 올라가면서

VIP 회원이 되고 그러죠?

이런 회원 등급도 고객 세분화의 일종이에요

© GDJ, 출처 Pixabay ​

 

과거에는 이런 고객 세분화를

단순히 인구통계로 나누거나

자주 방문하거나 높은 매출을 일으키는 고객 등

단순한 기준으로 세분화를 했어요

하지만 최근에는 빅데이터 분석이 가능해져서

조금 더 고객의 행동을 이해할 수 있도록

조금 더 다양한 관점으로

세분화하고 있어요

세분화된 고객 유형을 기준으로

프로파일링을 통해 특징을 파악해서

가장 적합한 마케팅 전략을 세우는 데

활용하고 있답니다

© kaleidico, 출처 Unsplash ​

 

 

바로 이때 활용할 수 있는 기법이

클러스터링 기법입니다!

오늘은 3가지 알고리즘을 알려드릴게요


클러스터링 기법

1. k-means

2. knn

3. som


 

 

하나씩 찬찬히 알려드릴게요

© geralt, 출처 Pixabay

 


1. k-평균 군집화

k-means

개체들의 유사도를 기반으로

K 개의 유사한 특성을 가지는 군집으로 도출

 


 

 

 

 

k = 3 일 때 결과

 

비슷한 유형으로 묶고 싶은

여러 변수들이 있죠?

각 변수들의 거리를 계산해서

비슷한 친구들끼리 모아서

K 개의 유형으로 나누는 알고리즘입니다

그래서 K-means에서는

K를 5개로 할지, 10개로 할지에 따라서

결과가 매우 달라져요

그리고 거리 계산 방법 (= 유사도 측정 방법)에

따라서도 결과가 매우 달라지고요

 

 

유사도 측정 기법

- 유클리디안 거리 계산

Euclidean Distance

- 맨해튼 거리 계산

Manhattan Distance

- 코사인 유사도 등

Cosine Similarity

 


 

 

유사도를 측정하는 방식은

모두 숫자여야 하기 때문에

사용하는 변수들도 모두 숫자여야 해요

문자는 안됩니다!

© PhotoMIX-Company, 출처 Pixabay

 

 

 

2. K 최근접 이웃 Knn

K Nearest Neighbor

K 개의 근접한 개체들의

유사도를 기반으로 군집 도출

 

 

 

 

 

k = 5 일 때 결과

 

Knn도 Kmeans와 유사하게

개체들 간의 유사도를 측정해서

가장 유사한 친구들끼리 묶어주는 알고리즘입니다

하지만 가장 큰 다른 점은

knn은 주변 K 개와의 유사도를 측정해서

유사하다고 판단되면 같은 유형으로

그렇지 않으면 다른 유형으로 판단하죠

그래서 Knn에서는 지정하는 K 값이

결과로 나오는 유형의 개수와는 다릅니다

k = 1 일 때 결과

 

그리고 K를 너무 적게 입력하면

수행 속도가 엄청 오래 걸리고

과적합 될 가능성이 높아지죠

과적합 이야기는 다음번에

조금 더 상세히 알려드릴게요

유사도를 측정하는 방법은

k-means랑 동일합니다

ㅎㅎㅎ

© adamaszczos, 출처 Unsplash ​

 

 

 

 

3. som

Self-organizing map

인공 신경망의 원리를 이용한 클러스터링 기법


 

 

 

som 같은 경우에는 인공신경망으로

데이터 셋의 차원을 축소하여 토폴로지 개념으로

결과를 시각적으로 보여줄 수 있다는 게

가장 큰 특징이에요

som plot

 

 

위에 사진에서 보이시는 원 하나하나가

micro seg라고 보시면 되고요

보통 som 알고리즘을 사용할 때에는

이렇게 micro seg를 기준으로

kmeans 알고리즘을

한 번 더 적용한 하이브리드 모형으로

10개 ~ 15개 정도의 클러스터를

만들게 됩니다

som mapping plot

 

kmeans나 knn보다는

수행 속도가 상대적으로 오래 걸리지만

나온 결과물이 시각적으로

표현하기 좋아서 자주 쓰는 기법입니다

저는 som 같은 경우에는

R 패키지를 더 선호합니다

(파이썬은 ... 안 이뻐요 ㅋㅋㅋ)

분석에 이쁜 게 뭐가 중요하냐

생각하시는 분들 계실 텐데

윗분들 설득하려면

일단 시각적으로 효과적이어야 해요

ㅋㅋㅋ

© sigmund, 출처 Unsplash

 

이 외에도 gmm이라던가 hmm 등

다양한 알고리즘이 존재하지만

오늘은 가장 쉽게 접근할 수 있는

클러스터링 기법 top 3 소개해 드렸습니다

클러스터링 별거 없죠?

ㅎㅎㅎ

사실 클러스터링은

나온 결과를 해석하고 프로파일링 하는 게

더 어려워요 ㅋㅋㅋㅋ

예측 모형처럼 딱 정해진 답이 있는 것도 아니고요

ㅜㅜ

다음 포스팅에서는

검증 방법 알려드릴게요