전체 글

데이터베이스의 본질과 핵심 어떤 데이터베이스를 만나건 가장 먼저 해야할 것은 데이터 베이스에서 데이터의 입출력을 파악하는 것 데이터의 input(입력)은 create(생성), update(수정), delete(삭제) output(출력) 은 read(읽기) 이러한 4가지 작업을 CRUD 라고 함 File vs Database 데이터를 구조화하여 정리하였을 때 데이터를 다루기 편해짐 spread sheet 는 database 로 가는 길목에 있음 file 과 다르게 database는 프로그래밍, 컴퓨터 언어를 이용하여 데이터를 추가, 수정, 삭제, 읽을 수 있음 database 는 사람이 일일이 작성하지 않고도 자동화 할 수 있다는 장점을 지님 SQL 이란 데이터베이스의 언어, Relational Datab..
01. 분류(Classification)의 개요 지도학습의 대표적인 유형인 분류(Classification)는 학습데이터로 주어진 데이터의 피처와 레이블값(결정값, 클래스 값)을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측하는 것이다. 분류는 다양한 머신러닝 알고리즘으로 구현할 수 있다. 이번 장에서는 다양한 머신러닝 알고리즘 중 앙상블 방법(Ensemble Method)을 집중적으로 다룬다. 앙상블은 일반적으로 배깅(Bagging), 부스팅(Boosting)방식으로 나눈다. 이 장에서는 앙상블 방법의 개요와 배깅 방식의 대표인 랜덤 포레스트, 부스팅 방법의 효시라고 할 수 있는 그래디언트 부스팅의 전통적인 앙상블 기법 뿐만 아니라..
피마 인디언 당뇨병 데이트 세트를 이용해 당뇨병 여부를 판단하는 머신러닝 예측 모델을 수립해본다 피마 인디언 당뇨병 데이터 세트의 피처 구성이다. Pregnancies: 임신횟수Glucose: 포도당 부하 검사 수치BloodPressure: 혈압(mm Hg)SkinThickness: 팔 삼두근 뒤쪽의 피하지방 측정값(mm)Insulin: 혈청 인슐린BMI: 체질량 지수DiabetesPedigreeFunction: 당뇨 내력 가중치 값Age: 나이Outcome: 클래스 결정값 (0 또는 1) import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inlinefrom sklearn.model_selection import..
04. F1 스코어 F1 스코어는 정밀도와 재현율을 결합한 지표이다. 이는 정밀도와 재현율이 어느 한 쪽으로 치우치지 않는 수치를 나타낼 때 상대적으로 높은 값을 가진다. F1 스코어의 공식은 다음과 같다.  사이킷런은 F1 스코어를 구하기 위해 f1_score() API를 제공한다. 이를 이용해 앞 게시글에서의 예제였던 타이타닉 생존자 모델의 F1 스코어를 구해보자 from sklearn.metrics import f1_scoref1 = f1_score(y_test, pred)print('F1 스코어:{0:.4f}'.format(f1))[output]F1 스코어:0.7966 이번에는 타이타닉 생존자 예측에서 임곗값을 변화시키면서 F1 스코어를 포함한 평가 지표를 구해보자 이를 위해 앞에서 작성한 get..
만서다