학습 및 사례

[빅데이터분석기사 실기 4탄] 학습실행 - 머신러닝, Unsupervised Learning

에스오에스데이터랩 2025. 6. 2. 19:40

 

주) 본인 학습을 위해 학습기간중 지속적으로 update 됩니다. 방문하신 분들을 위한 것이 아닙니다. 타이핑 연습용!^^

 

 

Unsupervised Learning이란?

더보기
더보기

비지도 학습 알고리즘은 레이블(=정답)이 없는 방대한 데이터로부터 유용한 정보를 추출하고, 데이터의 본질적인 구조를 이해하는 데 강력한 도구로 활용

 

 

머신러닝 수행 단계별 사용 변수명

단계 내용 사용변수명
1 데이터셋 전처리한다. -
2 머신러닝 모델 수행한다. model
3 검증한다. -

 

 

ML 모델별 라이브러리 및 함수

ML 자율 모델 유형 R 라이브러리 함수명
clustering cluster kmeans( )
Hierarchical Clustering - -
DBSCAN - -
Gaussian Mixture Models, GMM - -
PCA base princomp( )
t-SNE - -
Association Rules arules apriori()
inspect()

** base : 기본으로 설치된 라이브러리

** PCA : Principal Component Analysis

 

 

군집화

더보기
더보기

- 지식이나 패턴의 발견이 목적

- 데이터를 유사성에 따라 그룹으로 묶는 기법

- 군집내 유사도를 측정한다.

- 거리제곱합을 최소화한다.

- hierarchy 알고리즘

- non-hierarchy 알고리즘에 kmeans

- 확률모형으로 EM과 몬테칼로

R code

# Load dataset - iris
# Check missing values
# Clustering - cluster - kmeans()
library(cluster)
model<-kmeans(iris[,-5], centers=3)

 

 

 

주성분분석(PCA)

더보기
더보기

- 데이터의 특징(변수) 개수를 줄여 데이터의 복잡성을 감소시키는 기법

- 차원축소(dimensional reduction)라한다.

- 설명변수(독립변수)를 축소시킨다.

- 기법 : PCA, SVD, Factor Analysis 등

- PCA : 데이터의 분산(variance)이 가장 큰 방향을 찾아 새로운 직교 좌표축(주성분)으로 데이터를 투영하여 차원을 축소하는 선형 차원 축소 기법

R code

# Load dataset - iris
# Check missing values
# PCA - base - princomp()
model<-princomp(iris[,-5], cor=T) #상관행렬사용

 

 

연관규칙

더보기
더보기

- 데이터 세트 내에서 항목들 간의 흥미로운 관계나 의존성을 찾는 기법

- '장바구니 분석'이라고도 한다.

- 지지도, 신뢰도, 향상도로 평가한다.

R code

# Load dataset - arules - Groceries
library(arules)
data(Groceries)
summary(Groceries) # transaction data
inspect(Groceries[1:10,]) #데이터보기
# Build model
model<-apriori(Groceries) # parameter 조정 반복
summary(model)

 

 

** 반복 수행 및 해석하기 힘들어서 시험에는 출제될 가능성이 없다.