전체 글

대용량 데이터를 학습할 수 있는 딥러닝이 등장하면서 자연어 처리 연구가 활발해짐 5.1 텍스트의 토큰화토큰(token) : 텍스트를 잘게 나눈 하나의 단위케라스의 text 모듈의 text_to_word_sequence() 사용# 케라스의 텍스트 전처리와 관련된 text_to_word_sequence 함수from tensorflow.keras.preprocessing.text import text_to_word_sequence # 전처리할 텍스트를text = '해보지 않으면 해낼 수 없다' # 해당 텍스트를 토큰화result = text_to_word_sequence(text)print("\n원문:\n", text)print("\n토큰화:\n", result)[output]원문: 해보지 않으면 해낼 수 없..
5.1 이미지를 인식하는 원리, 데이터 전처리MNIST 데이터는 텐서플로 케라스의 API를 이용해 불러올 수 있음불러온 이미지 데이터를 X로, 0~9 클래스를 y로 구분7만 개 중 학습에 사용될 부분은 train, 테스트에 사용될 부분은 test라는 이름으로 불러옴from tensorflow.keras.datasets import mnistfrom tensorflow.keras.utils import to_categoricalimport matplotlib.pyplot as pltimport sys# MNIST 데이터셋을 불러와 학습셋과 테스트셋으로 저장(X_train, y_train), (X_test, y_test) = mnist.load_data()# 학습셋과 테스트셋이 각각 몇 개의 이미지로 되어 ..
레드 와인과 화이트 와인을 구분하는 모델 생성해보기1. 데이터의 확인과 검증셋샘플 6,497개, 피처 12개from tensorflow.keras.models import Sequentialfrom tensorflow.keras.layers import Densefrom sklearn.model_selection import train_test_splitimport pandas as pd# 깃허브에 준비된 데이터 호출!git clone https://github.com/taehojo/data.git# 와인 데이터를 호출df = pd.read_csv('./data/wine.csv', header=None)df 0~11번째 열에 해당하는 속성 12개를 X, 13번째 열을 y에 저장X = df.iloc[:,0..
초음파 광물 예측 실험을 텐서플로로 재현해보고 정확도를 평가하는 방법과 성능을 향상시키는 기법 수행 1. 데이터 확인과 예측 실행61개의 열과 일반 암석일 경우 0, 광석일 경우 1의 클래스 값을 가짐import pandas as pd# 깃허브에 준비된 데이터를 가져옵니다.!git clone https://github.com/taehojo/data.git# 광물 데이터를 불러옵니다.df = pd.read_csv('./data/sonar3.csv', header=None)# 첫 5줄을 봅니다. df.head() 광석 111개, 암석 97개로 총 208개의 샘플들로 구성1~60번째 열을 X 변수에 저장하고 광물의 종류는 y로 저장# 일반 암석(0)과 광석(1)이 몇 개 있는지 확인df[60].value_co..
만서다