데이터/머신러닝

04. F1 스코어 F1 스코어는 정밀도와 재현율을 결합한 지표이다. 이는 정밀도와 재현율이 어느 한 쪽으로 치우치지 않는 수치를 나타낼 때 상대적으로 높은 값을 가진다. F1 스코어의 공식은 다음과 같다.  사이킷런은 F1 스코어를 구하기 위해 f1_score() API를 제공한다. 이를 이용해 앞 게시글에서의 예제였던 타이타닉 생존자 모델의 F1 스코어를 구해보자 from sklearn.metrics import f1_scoref1 = f1_score(y_test, pred)print('F1 스코어:{0:.4f}'.format(f1))[output]F1 스코어:0.7966 이번에는 타이타닉 생존자 예측에서 임곗값을 변화시키면서 F1 스코어를 포함한 평가 지표를 구해보자 이를 위해 앞에서 작성한 get..
{학습 목적}Chapter 3 에서는 분류(Classification)에 사용되는 성능 평가 지표 중 0과 1로 결정값이 한정되는 이진 분류의 성능 평가 지표에 대해서 집중적으로 설명한다. 이를 학습하는 이유는 레이블 값이 불균형한 이진분류의 경우 정확도 만으로 머신러닝 모델의 예측성능을 평가할 수 없기 때문에 다양한 분류 성능 평가 지표를 학습하는 것이라고 생각한다.  먼저 분류의 성능 평가 지표부터 살펴보자정확도(Accuracy)오차행렬(Confusion Matrix)정밀도(Precision)재현율(Recall)F1 스코어ROC AUC 분류는 결정 클래스 값 종류에 따라 긍정/부정과 같은 2개의 결괏값만 가지는 이진 분류와 여러 개의 결정 클래스 값을 가지는 멀티 분류로 나눌 수 있다. 위에서 언급한..
이번 절에서는 캐글에서 제공하는 타이타닉 탑승자 데이터를 기반으로 생존자 예측을 사이킷런으로 수행해본다.  타이타닉 탑승자 데이터에 대해 개략적으로 살펴보자 passengerid: 탑승자 데이터 일련번호survived : 생존 여부, 0=사망, 1=생존pclass : 티켓의 선실 등급, 1=일등석, 2=이등석, 3=삼등석sex: 탑승자 성별name: 탑승자 이름Age : 탑승자 나이sibsp : 같이 탑승한 형제자매 또는 배우자 인원수parch: 같이 탑승한 부모님 또는 어린이 인원수ticket: 티켓번호fare: 요금cabin: 선실 요금embarked: 중간 정착 항구 C=Cherbourg, Q=Queenstown, S=Southampton 이번 예제에서는 시각화 패키지인 맷플롯립과 시본을 이용해 차..
{학습 목적}05. 파트에서는 데이터 전처리에 대해 학습한다. 이 파트를 학습하는 이유는 ML 알고리즘 만큼 중요한 것이 데이터 전처리이기 때문이다. ML알고리즘은 어떤 데이터를 입력으로 가지느냐에 따라 결과도 크게달라질 수 있기 때문에 알고리즘을 적용하기 전에 데이터를 처리하는 것은 중요하다.    사이킷런의 ML 알고리즘을 적용하기 전에 데이터에 대해 미리 처리해야 할 기본 사항이 있다.  1. 결손값, 즉 Null, NaN 값은 허용되지 않는다. 따라서 이러한 결손값은 고정된 다른 값으로 변환해야한다. 피처 값중 Null값이 얼마 되지 않는다면 피처의 평균값 등으로 간단히 대체될 수 있다. 하지만 Null 값이 대부분이라면 오히려 해당 피처는 드롭하는 것이 더 좋다. 가장 힘든 부분이 Null값이 ..
만서다
'데이터/머신러닝' 카테고리의 글 목록 (4 Page)