전체 글

추천시스템의 개요와 배경추천엔진은 사용자가 무엇을 원하는지 빠르게 찾아내어 사용자의 온라인 쇼핑 이용 즐거움을 배가 시킴데이터 기반의 추천시스템사용자가 어떤 상품을 구매했는가?사용자가 어떤 상품을 둘러보거나 장바구니에 넣었는가?사용자가 평가한 영화 평점은? 제품 평가는?사용자가 스스로 작성한 자신의 취향은?사용자가 무엇을 클릭했는가?이러한 데이터를 기반으로 사용자에게 친숙한 문구(ex.’이 상품을 선택한 다른 사람들이 좋아하는 상품들’)로 구매를 유도 콘텐츠 기반 필터링 (Content based filtering)협업 필터링 (Collaborative Filtering)최근접 이웃 협업 필터링 (Nearst Neighbor)잠재요인 협업 필터링 (Latent Factor) 콘텐츠 기반 필터링 추천 시스..
고객 세그멘테이션의 정의와 기법 고객 세그멘테이션의 주요 목표는 타깃 마케팅타깃 마케팅 : 고객을 여러 특성에 맞게 세분화해서 그 유형에 따라 맞춤형 마케팅이나 서비스를 제공하는 것고객의 상품 구매 이력에서 출발기본적인 고객 분석 요소인 RFM 기법을 이용해서 고객을 군집화RECENCY(R): 가장 최근 상품 구입 일에서 오늘까지의 기간FREQUENCY(F): 상품 구매 횟수MONETARY VALUE(M) : 총 구매 금액UCI 에서 제공하는 Online Retail Data set을 기반으로 한 고객 세그멘테이션 군집화 실습 진행  데이터 세트 로딩과 데이터 클렌징 제품 주문 데이터 세트 로딩InvoiceNo: 주문번호, ‘C’로 시작하는 것은 취소 주문StockCode: 제품 코드(Item Code)..
군집 평가(Cluster Evaluation)군집화는 classification과 달리 타깃 레이블을 가지고 있지 않고, 동일한 분류 값에 속하더라도 그 안에서 더 세분화된 군집화를 추구하거나 서로 다른 분류 값의 데이터도 더 넓은 군집화 레벨화 등의 영역을 가지고 있음군집 평가를 위한 방법으로 실루엣 분석을 이용 실루엣 분석은 각 군집 간의 거리는 떨어져 있고 동일 군집끼리의 데이터는 서로 가깝게 잘 뭉쳐있는지, 즉 얼마나 효율적으로 잘 분리돼있는지를 나타냄실루엣 계수 s(i) : 개별 데이터가 가지는 군집화 지표로 해당 데이터가 같은 군집 내의 데이터와 얼마나 가깝게 군집화 되어있고, 다른 군집 데이터와는 얼마나 멀리 분리돼있는지를 나타냄a(i) : i번째 데이터에서 자신이 속한 클러스터 내의 다른 ..
K-평균 알고리즘의 이해군집화의 기준이 되는 중심점을 군집화 개수만큼 설정하여 적합한 위치에 가져다 놓는다.각 데이터는 가장 가까운 중심점에 소속된다.소속이 결정되면 중심점이 소속된 데이터의 평균 중심으로 이동된다.중심점이 이동했기 때문에 데이터들이 가까운 중심점으로 소속을 변경한다.3-4과정을 반복한다.데이터들의 소속변경이 없으면 군집화를 종료한다.일반적인 군집화에서 가장 많이 활용되는 알고리즘알고리즘이 쉽고 간결하다.거리 기반 알고리즘으로 속성의 개수가 매우 많을 경우 군집화 정확도가 떨어진다. (이를 위해 PCA로 차원감소를 적용해야 할 수도 있다.)반복을 수행하는데, 반복 횟수가 많을 경우 수행 시간이 매우 느려진다.몇 개의 군집(cluster)을 선택해야 할지 가이드하기가 어렵다. 사이킷런 KM..
만서다