빅데이터 클러스터링 기법 top 3

데이터분석 정보

빅데이터 클러스터링 기법 top 3

로그미 2021. 11. 30. 11:05

오늘은 빅데이터 분석 기법에 대해서

간략하게 알려드리겠습니다

분석 기법은 예측을 할 것인지

분류를 할 것인지

아니면 어떤 유형화를 할 것인지 등에

따라서 정말 다양한데요

오늘은 유형화를 할 수 있는

클러스터링 기법에 대해서

몇 가지 소개해드릴게요

클러스터링 기법이란?

많은 기업에서 한 번쯤은 꼭 하는 게

무엇인지 아시나요?

바로 고객 세분화인데요

수백, 수만, 수천 명의 고객들의

특징을 파악하고 각 고객에게

적합한 마케팅을 하기 위해

혹은 고객 관리 전략을 세우기 위해서

많은 기업에서 꼭 하고 있는 분석입니다

온라인 쇼핑몰 가입하시면

가입할 당시에는 일반 회원이지만

구매 금액이 올라가면서

VIP 회원이 되고 그러죠?

이런 회원 등급도 고객 세분화의 일종이에요

과거에는 이런 고객 세분화를

단순히 인구통계로 나누거나

자주 방문하거나 높은 매출을 일으키는 고객 등

단순한 기준으로 세분화를 했어요

하지만 최근에는 빅데이터 분석이 가능해져서

조금 더 고객의 행동을 이해할 수 있도록

조금 더 다양한 관점으로

세분화하고 있어요

세분화된 고객 유형을 기준으로

프로파일링을 통해 특징을 파악해서

가장 적합한 마케팅 전략을 세우는 데

활용하고 있답니다

바로 이때 활용할 수 있는 기법이

클러스터링 기법입니다!

오늘은 3가지 알고리즘을 알려드릴게요

클러스터링 기법

1. k-means

2. knn

3. som

하나씩 찬찬히 알려드릴게요

1. k-평균 군집화

k-means

개체들의 유사도를 기반으로

K 개의 유사한 특성을 가지는 군집으로 도출

비슷한 유형으로 묶고 싶은

여러 변수들이 있죠?

각 변수들의 거리를 계산해서

비슷한 친구들끼리 모아서

K 개의 유형으로 나누는 알고리즘입니다

그래서 K-means에서는

K를 5개로 할지, 10개로 할지에 따라서

결과가 매우 달라져요

그리고 거리 계산 방법 (= 유사도 측정 방법)에

따라서도 결과가 매우 달라지고요

유사도 측정 기법

- 유클리디안 거리 계산

Euclidean Distance

- 맨해튼 거리 계산

Manhattan Distance

- 코사인 유사도 등

Cosine Similarity

유사도를 측정하는 방식은

모두 숫자여야 하기 때문에

사용하는 변수들도 모두 숫자여야 해요

문자는 안됩니다!

2. K 최근접 이웃 Knn

K Nearest Neighbor

K 개의 근접한 개체들의

유사도를 기반으로 군집 도출

Knn도 Kmeans와 유사하게

개체들 간의 유사도를 측정해서

가장 유사한 친구들끼리 묶어주는 알고리즘입니다

하지만 가장 큰 다른 점은

knn은 주변 K 개와의 유사도를 측정해서

유사하다고 판단되면 같은 유형으로

그렇지 않으면 다른 유형으로 판단하죠

그래서 Knn에서는 지정하는 K 값이

결과로 나오는 유형의 개수와는 다릅니다

그리고 K를 너무 적게 입력하면

수행 속도가 엄청 오래 걸리고

과적합 될 가능성이 높아지죠

과적합 이야기는 다음번에

조금 더 상세히 알려드릴게요

유사도를 측정하는 방법은

k-means랑 동일합니다

ㅎㅎㅎ

3. som

Self-organizing map

인공 신경망의 원리를 이용한 클러스터링 기법

som 같은 경우에는 인공신경망으로

데이터 셋의 차원을 축소하여 토폴로지 개념으로

결과를 시각적으로 보여줄 수 있다는 게

가장 큰 특징이에요

위에 사진에서 보이시는 원 하나하나가

micro seg라고 보시면 되고요

보통 som 알고리즘을 사용할 때에는

이렇게 micro seg를 기준으로

kmeans 알고리즘을

한 번 더 적용한 하이브리드 모형으로

10개 ~ 15개 정도의 클러스터를

만들게 됩니다

kmeans나 knn보다는

수행 속도가 상대적으로 오래 걸리지만

나온 결과물이 시각적으로

표현하기 좋아서 자주 쓰는 기법입니다

저는 som 같은 경우에는

R 패키지를 더 선호합니다

(파이썬은 ... 안 이뻐요 ㅋㅋㅋ)

분석에 이쁜 게 뭐가 중요하냐

생각하시는 분들 계실 텐데

윗분들 설득하려면

일단 시각적으로 효과적이어야 해요

ㅋㅋㅋ

이 외에도 gmm이라던가 hmm 등

다양한 알고리즘이 존재하지만

오늘은 가장 쉽게 접근할 수 있는

클러스터링 기법 top 3 소개해 드렸습니다

클러스터링 별거 없죠?

ㅎㅎㅎ

사실 클러스터링은

나온 결과를 해석하고 프로파일링 하는 게

더 어려워요 ㅋㅋㅋㅋ

예측 모형처럼 딱 정해진 답이 있는 것도 아니고요

ㅜㅜ

다음 포스팅에서는

검증 방법 알려드릴게요

저작자표시 비영리 변경금지 (새창열림)

'데이터분석 정보' 카테고리의 다른 글

딥러닝 코딩 구글 코랩 이용하기 (0)	2021.12.04
캐글 머신러닝 대회 나가기 (3)	2021.12.03
머신러닝 딥러닝 차이 쉽게 알아보자 (0)	2021.12.03
데이터분석 인터넷강의 추천 list (0)	2021.06.30
그래프 그리는 사이트 best 6 (0)	2021.05.04

현재글빅데이터 클러스터링 기법 top 3

회사는 취미생활로 다니고 싶은 쭈구리 직장인입니다 :) 데이터분석과 취업자격증 정보 공유해드릴게요!

회사는 취미생활