데이터베이스의 본질과 핵심 어떤 데이터베이스를 만나건 가장 먼저 해야할 것은 데이터 베이스에서 데이터의 입출력을 파악하는 것 데이터의 input(입력)은 create(생성), update(수정), delete(삭제) output(출력) 은 read(읽기) 이러한 4가지 작업을 CRUD 라고 함 File vs Database 데이터를 구조화하여 정리하였을 때 데이터를 다루기 편해짐 spread sheet 는 database 로 가는 길목에 있음 file 과 다르게 database는 프로그래밍, 컴퓨터 언어를 이용하여 데이터를 추가, 수정, 삭제, 읽을 수 있음 database 는 사람이 일일이 작성하지 않고도 자동화 할 수 있다는 장점을 지님 SQL 이란 데이터베이스의 언어, Relational Datab..
전체 글
01. 분류(Classification)의 개요 지도학습의 대표적인 유형인 분류(Classification)는 학습데이터로 주어진 데이터의 피처와 레이블값(결정값, 클래스 값)을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측하는 것이다. 분류는 다양한 머신러닝 알고리즘으로 구현할 수 있다. 이번 장에서는 다양한 머신러닝 알고리즘 중 앙상블 방법(Ensemble Method)을 집중적으로 다룬다. 앙상블은 일반적으로 배깅(Bagging), 부스팅(Boosting)방식으로 나눈다. 이 장에서는 앙상블 방법의 개요와 배깅 방식의 대표인 랜덤 포레스트, 부스팅 방법의 효시라고 할 수 있는 그래디언트 부스팅의 전통적인 앙상블 기법 뿐만 아니라..
피마 인디언 당뇨병 데이트 세트를 이용해 당뇨병 여부를 판단하는 머신러닝 예측 모델을 수립해본다 피마 인디언 당뇨병 데이터 세트의 피처 구성이다. Pregnancies: 임신횟수Glucose: 포도당 부하 검사 수치BloodPressure: 혈압(mm Hg)SkinThickness: 팔 삼두근 뒤쪽의 피하지방 측정값(mm)Insulin: 혈청 인슐린BMI: 체질량 지수DiabetesPedigreeFunction: 당뇨 내력 가중치 값Age: 나이Outcome: 클래스 결정값 (0 또는 1) import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inlinefrom sklearn.model_selection import..
04. F1 스코어 F1 스코어는 정밀도와 재현율을 결합한 지표이다. 이는 정밀도와 재현율이 어느 한 쪽으로 치우치지 않는 수치를 나타낼 때 상대적으로 높은 값을 가진다. F1 스코어의 공식은 다음과 같다. 사이킷런은 F1 스코어를 구하기 위해 f1_score() API를 제공한다. 이를 이용해 앞 게시글에서의 예제였던 타이타닉 생존자 모델의 F1 스코어를 구해보자 from sklearn.metrics import f1_scoref1 = f1_score(y_test, pred)print('F1 스코어:{0:.4f}'.format(f1))[output]F1 스코어:0.7966 이번에는 타이타닉 생존자 예측에서 임곗값을 변화시키면서 F1 스코어를 포함한 평가 지표를 구해보자 이를 위해 앞에서 작성한 get..