본문 바로가기

[ML&DL]

[ML&DL] 비지도학습

1. 군집 알고리즘

비지도 학습: 훈련데이터에 타깃이 없기 때문에 스스로 유용한 무언가를 학습해야함

히스토그램: 구간별로 값이 발생한 빈도를 그래프로 표시한 것

군집: 비슷한 샘플끼리 하나의 그룹으로 모으는 대표적인 비지도 학습, 군집 알고리즘으로 모은 샘플 그룹을 클러스터라고 부름

 

2. k-평균

k-평균 알고리즘: 랜덤하게 클러스터 중심을 정하고 클러스터를 만들고, 클러스터의 중심을 이동하고 다시 클러스터를 만드는 식으로 반복해 최적의 클러스터 구성

클러스터 중심: k-평균 알고리즘이 만든 클러스터에 속한 샘플의 특성 평균값

* 엘보우 방법: 최적의 클러스터 개수를 정하는 방법, 너무 적으면 오차가 크고 너무 많으면 의미없는 클러스터가 많아짐. 따라서 엘보우 지점이 클래스터 개수k

scikit-learn
  - KMeans k-평균 알고리즘 클래스
    * n_clusters 클러스터 개수 지정 
    * n_init 이 반복횟수 지정
    * 이니셔(inertia)란 클러스터 샘플이 얼마나 가깝게 있는지를 나타내는 값

 

3. 주성분 분석

차원 축소: 원본 데이터의 특성을 적은 수의 새로운 특성으로 변환하는 비지도 학습의 한 종류, 저장공간을 줄이고 시각화 하기 쉬움

* 주성분 분석: 차원 축소 알고리즘의 하나로 데이터에서 가장 분산이 큰 방향을 찾는 방법, 원본데이터를 주성분에 넣어 특성을 만듬, 일반적으로 원본데이터 보다 적은 개수

설명된 분산: 주성분 분석에서 주성분이 얼마나 원본 데이터의 분산을 잘 나타내는지 기록한 것, pca 클래스는 주성분 갯수와 설명된 분산의 비율을 지정하여 주성분 분석 수행

* scikit-learn
  - PCA는 주성분 분석으르 수행하는 클래스
    * n_components는 주성분 개수 지정
    * components_속성에는 훈련 세트에서 찾은 주성분이 저장
    * explainded_variance_속성에는 설명된 분산이 저장, ratio_에는 비율 저장
    * inverse_transform() 메서드는 축소시킨 데이터를 다시 원본 데이터로 복원

'[ML&DL]' 카테고리의 다른 글

[ML&DL] 이미지를 위한 인공 신경망  (0) 2023.03.14
[ML&DL] 딥러닝 입문  (0) 2023.03.13
[ML&DL] 트리 알고리즘  (0) 2023.03.09
[ML&DL] 다양한 분류 알고리즘  (0) 2023.03.08
[ML&DL] 회귀 알고리즘과 모델 규제  (0) 2023.03.07