오늘은 빅데이터 분석 기법에 대해서
간략하게 알려드리겠습니다
분석 기법은 예측을 할 것인지
분류를 할 것인지
아니면 어떤 유형화를 할 것인지 등에
따라서 정말 다양한데요
오늘은 유형화를 할 수 있는
클러스터링 기법에 대해서
몇 가지 소개해드릴게요

클러스터링 기법이란?
많은 기업에서 한 번쯤은 꼭 하는 게
무엇인지 아시나요?
바로 고객 세분화인데요
수백, 수만, 수천 명의 고객들의
특징을 파악하고 각 고객에게
적합한 마케팅을 하기 위해
혹은 고객 관리 전략을 세우기 위해서
많은 기업에서 꼭 하고 있는 분석입니다
온라인 쇼핑몰 가입하시면
가입할 당시에는 일반 회원이지만
구매 금액이 올라가면서
VIP 회원이 되고 그러죠?
이런 회원 등급도 고객 세분화의 일종이에요

과거에는 이런 고객 세분화를
단순히 인구통계로 나누거나
자주 방문하거나 높은 매출을 일으키는 고객 등
단순한 기준으로 세분화를 했어요
하지만 최근에는 빅데이터 분석이 가능해져서
조금 더 고객의 행동을 이해할 수 있도록
조금 더 다양한 관점으로
세분화하고 있어요
세분화된 고객 유형을 기준으로
프로파일링을 통해 특징을 파악해서
가장 적합한 마케팅 전략을 세우는 데
활용하고 있답니다

바로 이때 활용할 수 있는 기법이
클러스터링 기법입니다!
오늘은 3가지 알고리즘을 알려드릴게요
클러스터링 기법
1. k-means
2. knn
3. som
하나씩 찬찬히 알려드릴게요

1. k-평균 군집화
k-means
개체들의 유사도를 기반으로
K 개의 유사한 특성을 가지는 군집으로 도출

비슷한 유형으로 묶고 싶은
여러 변수들이 있죠?
각 변수들의 거리를 계산해서
비슷한 친구들끼리 모아서
K 개의 유형으로 나누는 알고리즘입니다
그래서 K-means에서는
K를 5개로 할지, 10개로 할지에 따라서
결과가 매우 달라져요
그리고 거리 계산 방법 (= 유사도 측정 방법)에
따라서도 결과가 매우 달라지고요
유사도 측정 기법
- 유클리디안 거리 계산
Euclidean Distance
- 맨해튼 거리 계산
Manhattan Distance
- 코사인 유사도 등
Cosine Similarity
유사도를 측정하는 방식은
모두 숫자여야 하기 때문에
사용하는 변수들도 모두 숫자여야 해요
문자는 안됩니다!

2. K 최근접 이웃 Knn
K Nearest Neighbor
K 개의 근접한 개체들의
유사도를 기반으로 군집 도출

Knn도 Kmeans와 유사하게
개체들 간의 유사도를 측정해서
가장 유사한 친구들끼리 묶어주는 알고리즘입니다
하지만 가장 큰 다른 점은
knn은 주변 K 개와의 유사도를 측정해서
유사하다고 판단되면 같은 유형으로
그렇지 않으면 다른 유형으로 판단하죠
그래서 Knn에서는 지정하는 K 값이
결과로 나오는 유형의 개수와는 다릅니다

그리고 K를 너무 적게 입력하면
수행 속도가 엄청 오래 걸리고
과적합 될 가능성이 높아지죠
과적합 이야기는 다음번에
조금 더 상세히 알려드릴게요
유사도를 측정하는 방법은
k-means랑 동일합니다
ㅎㅎㅎ

3. som
Self-organizing map
인공 신경망의 원리를 이용한 클러스터링 기법
som 같은 경우에는 인공신경망으로
데이터 셋의 차원을 축소하여 토폴로지 개념으로
결과를 시각적으로 보여줄 수 있다는 게
가장 큰 특징이에요

위에 사진에서 보이시는 원 하나하나가
micro seg라고 보시면 되고요
보통 som 알고리즘을 사용할 때에는
이렇게 micro seg를 기준으로
kmeans 알고리즘을
한 번 더 적용한 하이브리드 모형으로
10개 ~ 15개 정도의 클러스터를
만들게 됩니다

kmeans나 knn보다는
수행 속도가 상대적으로 오래 걸리지만
나온 결과물이 시각적으로
표현하기 좋아서 자주 쓰는 기법입니다
저는 som 같은 경우에는
R 패키지를 더 선호합니다
(파이썬은 ... 안 이뻐요 ㅋㅋㅋ)
분석에 이쁜 게 뭐가 중요하냐
생각하시는 분들 계실 텐데
윗분들 설득하려면
일단 시각적으로 효과적이어야 해요
ㅋㅋㅋ

이 외에도 gmm이라던가 hmm 등
다양한 알고리즘이 존재하지만
오늘은 가장 쉽게 접근할 수 있는
클러스터링 기법 top 3 소개해 드렸습니다
클러스터링 별거 없죠?
ㅎㅎㅎ
사실 클러스터링은
나온 결과를 해석하고 프로파일링 하는 게
더 어려워요 ㅋㅋㅋㅋ
예측 모형처럼 딱 정해진 답이 있는 것도 아니고요
ㅜㅜ
다음 포스팅에서는
검증 방법 알려드릴게요
'데이터분석 정보' 카테고리의 다른 글
| 딥러닝 코딩 구글 코랩 이용하기 (0) | 2021.12.04 |
|---|---|
| 캐글 머신러닝 대회 나가기 (3) | 2021.12.03 |
| 머신러닝 딥러닝 차이 쉽게 알아보자 (0) | 2021.12.03 |
| 데이터분석 인터넷강의 추천 list (0) | 2021.06.30 |
| 그래프 그리는 사이트 best 6 (0) | 2021.05.04 |