데이터/머신러닝

군집 평가(Cluster Evaluation)군집화는 classification과 달리 타깃 레이블을 가지고 있지 않고, 동일한 분류 값에 속하더라도 그 안에서 더 세분화된 군집화를 추구하거나 서로 다른 분류 값의 데이터도 더 넓은 군집화 레벨화 등의 영역을 가지고 있음군집 평가를 위한 방법으로 실루엣 분석을 이용 실루엣 분석은 각 군집 간의 거리는 떨어져 있고 동일 군집끼리의 데이터는 서로 가깝게 잘 뭉쳐있는지, 즉 얼마나 효율적으로 잘 분리돼있는지를 나타냄실루엣 계수 s(i) : 개별 데이터가 가지는 군집화 지표로 해당 데이터가 같은 군집 내의 데이터와 얼마나 가깝게 군집화 되어있고, 다른 군집 데이터와는 얼마나 멀리 분리돼있는지를 나타냄a(i) : i번째 데이터에서 자신이 속한 클러스터 내의 다른 ..
K-평균 알고리즘의 이해군집화의 기준이 되는 중심점을 군집화 개수만큼 설정하여 적합한 위치에 가져다 놓는다.각 데이터는 가장 가까운 중심점에 소속된다.소속이 결정되면 중심점이 소속된 데이터의 평균 중심으로 이동된다.중심점이 이동했기 때문에 데이터들이 가까운 중심점으로 소속을 변경한다.3-4과정을 반복한다.데이터들의 소속변경이 없으면 군집화를 종료한다.일반적인 군집화에서 가장 많이 활용되는 알고리즘알고리즘이 쉽고 간결하다.거리 기반 알고리즘으로 속성의 개수가 매우 많을 경우 군집화 정확도가 떨어진다. (이를 위해 PCA로 차원감소를 적용해야 할 수도 있다.)반복을 수행하는데, 반복 횟수가 많을 경우 수행 시간이 매우 느려진다.몇 개의 군집(cluster)을 선택해야 할지 가이드하기가 어렵다. 사이킷런 KM..
01. 분류(Classification)의 개요 지도학습의 대표적인 유형인 분류(Classification)는 학습데이터로 주어진 데이터의 피처와 레이블값(결정값, 클래스 값)을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측하는 것이다. 분류는 다양한 머신러닝 알고리즘으로 구현할 수 있다. 이번 장에서는 다양한 머신러닝 알고리즘 중 앙상블 방법(Ensemble Method)을 집중적으로 다룬다. 앙상블은 일반적으로 배깅(Bagging), 부스팅(Boosting)방식으로 나눈다. 이 장에서는 앙상블 방법의 개요와 배깅 방식의 대표인 랜덤 포레스트, 부스팅 방법의 효시라고 할 수 있는 그래디언트 부스팅의 전통적인 앙상블 기법 뿐만 아니라..
피마 인디언 당뇨병 데이트 세트를 이용해 당뇨병 여부를 판단하는 머신러닝 예측 모델을 수립해본다 피마 인디언 당뇨병 데이터 세트의 피처 구성이다. Pregnancies: 임신횟수Glucose: 포도당 부하 검사 수치BloodPressure: 혈압(mm Hg)SkinThickness: 팔 삼두근 뒤쪽의 피하지방 측정값(mm)Insulin: 혈청 인슐린BMI: 체질량 지수DiabetesPedigreeFunction: 당뇨 내력 가중치 값Age: 나이Outcome: 클래스 결정값 (0 또는 1) import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inlinefrom sklearn.model_selection import..
만서다
'데이터/머신러닝' 카테고리의 글 목록 (3 Page)