현재 공부를 시작한 단계에 불과하며, 차근차근 공부한 머신러닝 알고리즘의 방식과 특징 등을 정리해나가는 게시글이다.
기술하는 내용은 모두 Python 기반이다.
< 비지도 학습 알고리즘(Unsupervised learning) >
- 지도 학습 알고리즘과 다르게 데이터 중에서 타깃이 없을 때 사용하는 머신러닝 알고리즘이다.
1. k-평균(k-Means)
1) 무작위로 k개의 클러스터(군집) 중심을 선택하고, 점차 가장 가까운 샘플의 중심으로 이동하는 비교적 간단한 알고리즘
2) 평균값이 클러스터의 중심에 위치하기 때문에 '클러스터 중심' 또는 '센트로이드'라고 부르기도 한다.
3) 군집된 결과는 KMeans 클래스의 labels_ 속성, 클러스터 중심은 cluster_centers_ 속성, 알고리즘이 반복한 횟수는 n_iter_ 속성, 이너셔(클러스터 중심과 샘플 사이의 거리 제곱 합)는 inertia_ 속성에 저장된다.
from sklearn.cluster import KMeans #k-평균 알고리즘을 구현한 클래스를 임포트
매개변수
n_cluster: 클러스터 개수를 지정하는 매개변수. 기본값은 8이다.
n_init: 센트로이드를 초기화하며, 이너셔를 기준으로 가장 좋은 결과를 선택하기 위해 반복하는 횟수. 기본값은 10이다.max_iter: 한 번의 알고리즘 실행에서 최적의 센트로이드를 찾기 위해 반복하는 최대 횟수. 기본값은 200이다.
함수
transform(): 훈련 데이터 샘플에서 클러스터 중심까지 거리로 변환해주는 함수.
< 참고 >
'지극히 개인적인 공부 노트 > 인공지능(AI)' 카테고리의 다른 글
[인공지능] 사이킷런(Scikit-learn) 패키지 (0) | 2021.05.15 |
---|---|
[인공지능] 머신러닝 '지도 학습' 알고리즘 정리 (0) | 2021.04.30 |
[인공지능] 인공지능, 머신러닝, 딥러닝 간단 정리 (0) | 2021.04.30 |