주) 본인 학습을 위해 학습기간중 지속적으로 update 됩니다. 방문하신 분들을 위한 것이 아닙니다. 타이핑 연습용!^^
Unsupervised Learning이란?
머신러닝 수행 단계별 사용 변수명
단계 | 내용 | 사용변수명 |
1 | 데이터셋 전처리한다. | - |
2 | 머신러닝 모델 수행한다. | model |
3 | 검증한다. | - |
ML 모델별 라이브러리 및 함수
ML 자율 모델 유형 | R 라이브러리 | 함수명 |
clustering | cluster | kmeans( ) |
Hierarchical Clustering | - | - |
DBSCAN | - | - |
Gaussian Mixture Models, GMM | - | - |
PCA | base | princomp( ) |
t-SNE | - | - |
Association Rules | arules | apriori() inspect() |
** base : 기본으로 설치된 라이브러리
** PCA : Principal Component Analysis
군집화
더보기
더보기
- 지식이나 패턴의 발견이 목적
- 데이터를 유사성에 따라 그룹으로 묶는 기법
- 군집내 유사도를 측정한다.
- 거리제곱합을 최소화한다.
- hierarchy 알고리즘
- non-hierarchy 알고리즘에 kmeans
- 확률모형으로 EM과 몬테칼로
R code
# Load dataset - iris
# Check missing values
# Clustering - cluster - kmeans()
library(cluster)
model<-kmeans(iris[,-5], centers=3)
주성분분석(PCA)
더보기
더보기
- 데이터의 특징(변수) 개수를 줄여 데이터의 복잡성을 감소시키는 기법
- 차원축소(dimensional reduction)라한다.
- 설명변수(독립변수)를 축소시킨다.
- 기법 : PCA, SVD, Factor Analysis 등
- PCA : 데이터의 분산(variance)이 가장 큰 방향을 찾아 새로운 직교 좌표축(주성분)으로 데이터를 투영하여 차원을 축소하는 선형 차원 축소 기법
R code
# Load dataset - iris
# Check missing values
# PCA - base - princomp()
model<-princomp(iris[,-5], cor=T) #상관행렬사용
연관규칙
R code
# Load dataset - arules - Groceries
library(arules)
data(Groceries)
summary(Groceries) # transaction data
inspect(Groceries[1:10,]) #데이터보기
# Build model
model<-apriori(Groceries) # parameter 조정 반복
summary(model)
** 반복 수행 및 해석하기 힘들어서 시험에는 출제될 가능성이 없다.
'학습 및 사례' 카테고리의 다른 글
경기도일자리재단 베이비부머인턴쉽(컨설팅형) 역량교육 참여 (3) - Problem-solving (5) | 2025.05.31 |
---|---|
[빅데이터분석기사 실기 3탄] 학습실행 - 머신러닝, Prediction or Regression (0) | 2025.05.27 |
[빅데이터분석기사 실기 2탄] 학습실행 - 머신러닝, Classification (0) | 2025.05.25 |
[빅데이터분석기사 실기 1탄] 학습계획 수립 (0) | 2025.05.19 |
[직접생산확인] 2025년 실태조사원 역량교육 - 학습계획, 학습방법 및 시험결과 (0) | 2025.05.18 |