사이킷런에서 제공하는 fetch_20newsgroups() API를 이용한 20 뉴스그룹 분류 실습텍스트 분류는 학습 데이터를 통해 특정 문서 분류 모델을 생성한 뒤 다른 문서의 분류를 예측하는 것텍스트를 먼저 정규화 한 뒤 피처 벡터화를 적용하고 로지스틱 회귀 알고리즘을 적용해 분류를 학습/예측/평가사이킷런의 Pipeline 객체를 통해 피처 벡터화 파라미터와 GridSearchCV기반의 하이퍼 파라미터 튜닝을 한꺼번에 수행1. 텍스트 정규화 데이터 로딩 후, 데이터 세트의 key 값 확인from sklearn.datasets import fetch_20newsgroupsnews_data = fetch_20newsgroups(subset='all', random_state=156)print(news_d..
데이터/머신러닝
NLP(자연어 처리) : 머신이 인간의 언어를 이해하고 해석TA(텍스트 분석) : 비정형 데이터에서 의미있는 정보를 추출→ NLP 는 텍스트 분석을 향상하게 하는 기반 기술 [머신러닝에 기반한 텍스트 분석 기술 종류]텍스트 분류감성 분석텍스트 요약텍스트 군집화1. 텍스트 분석 이해텍스트 분석은 비정형 데이터인 텍스트를 분석머신러닝 알고리즘은 숫자형의 피처기반 데이터만 입력받을 수 있기 때문에 ‘비정형 텍스트 데이터를 어떻게 피처 형태로 추출하고 추출된 피처에 의미있는 값을 부여하는가’ 하는 것이 매우 중요한 요소피처 벡터화, 피처 추출 : 텍스트를 벡터값을 가지는 피처로 변환하는 것1.2 텍스트 분석 프로세스텍스트 전처리 : 텍스트를 피처로 만들기 전 클렌징 작업, 토큰화 작업, 어근 추출 등의 텍스트 ..
추천시스템의 개요와 배경추천엔진은 사용자가 무엇을 원하는지 빠르게 찾아내어 사용자의 온라인 쇼핑 이용 즐거움을 배가 시킴데이터 기반의 추천시스템사용자가 어떤 상품을 구매했는가?사용자가 어떤 상품을 둘러보거나 장바구니에 넣었는가?사용자가 평가한 영화 평점은? 제품 평가는?사용자가 스스로 작성한 자신의 취향은?사용자가 무엇을 클릭했는가?이러한 데이터를 기반으로 사용자에게 친숙한 문구(ex.’이 상품을 선택한 다른 사람들이 좋아하는 상품들’)로 구매를 유도 콘텐츠 기반 필터링 (Content based filtering)협업 필터링 (Collaborative Filtering)최근접 이웃 협업 필터링 (Nearst Neighbor)잠재요인 협업 필터링 (Latent Factor) 콘텐츠 기반 필터링 추천 시스..
고객 세그멘테이션의 정의와 기법 고객 세그멘테이션의 주요 목표는 타깃 마케팅타깃 마케팅 : 고객을 여러 특성에 맞게 세분화해서 그 유형에 따라 맞춤형 마케팅이나 서비스를 제공하는 것고객의 상품 구매 이력에서 출발기본적인 고객 분석 요소인 RFM 기법을 이용해서 고객을 군집화RECENCY(R): 가장 최근 상품 구입 일에서 오늘까지의 기간FREQUENCY(F): 상품 구매 횟수MONETARY VALUE(M) : 총 구매 금액UCI 에서 제공하는 Online Retail Data set을 기반으로 한 고객 세그멘테이션 군집화 실습 진행 데이터 세트 로딩과 데이터 클렌징 제품 주문 데이터 세트 로딩InvoiceNo: 주문번호, ‘C’로 시작하는 것은 취소 주문StockCode: 제품 코드(Item Code)..