본문 바로가기

머신러닝

(20)
07-6_군집화_UCI(고객제품주문데이터)으로 군집화 해보기_kmeans, gmm, dmscan 데이터 분석 목표¶ >>> 고객을 다양한 기준을 통해 고객을 분류해 고객마다의 특성에 맞게 서비스를 제공하기 위한 고객 분류¶ RFM 기법¶ 고객 분석 요소¶ ###### 1. recency = 최신 , 2. frequency = (빈도)최근 구매 횟수 , 3. monetary = 총 구매 금액의 약자들의 알아내는 기법 고객 세그먼테이션 군집화¶ 비지도 학습 (크러스터링 활용) ### recency = 최신 ### frequency = (빈도)최근 구매 횟수 ### monetary value = 총 구매 금액 컬럼별 설명¶ ### InvoiceNo = 주문번호 _ c로 시작하는 것은 취소주문이다. ### StockCode = 제품코드 ### Description = 제품 설명 ### Quantity = ..
07-5_군집도_DMSCAN 구성요소 DBSCAN(Density Based Spatial clustering of application with noise¶ 군집화 알고리즘별 비교¶ https://scikit-learn.org/stable/modules/clustering.html DBSCAN 구성 요소¶ In [ ]: ![image-2.png](attachment:image-2.png) DBSCAN절차 -1¶ In [ ]: ### DBSCAN절차 -2 ![image-2.png](attachment:image-2.png) In [ ]: ### DBSCAN절차 -3 ![image-3.png](attachment:image-3.png) In [ ]: ### DBSCAN절차 -4 ![image-4.png](attachment:image-4.png..
07-4_군집화_Kmeans_GMM-거리기반 _K-Means과 GMM의 성능비교 GMM(Gaussian Mixture Model)¶ GMM은 Parametric 모델로서 EM(Expectation Maximization) 알고리즘을 이용한 대표적인 군집화 모델이다. 개별 데이터가 가우시안 분포에 속한다고 가정을 한 상태에서 특정 정규분포에 속할 확률을 추정하는 것이다. Scikit-learn에서 제공하는 API의 주요 파라미터는 n_components로 사전적으로 정의하는 군집화 개수를 의미한다. GMM은 특히 잘 적용이 되는 데이터 분포가 있는데 주로 타원형으로 길게 늘어진 데이터 분포에 적용이 용이하다.¶ GMM-거리기반 K-Means의 문제점¶ 01_GMM(Gaussian Mixture Model)개요¶ 02_서로 다른 정규 분포로 결합된 원본 데이터 분포¶ 03_GMM모수 추..
07-2_군집화_평가_실루엣 분석 군집 평가 – 루엣 분석¶ 군집화 예시 사이트 kmeans전용 사이트 https://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_silhouette_analysis.html?highlight=silhouette 실루엣 계수는 1에 가까울수록 군집화가 잘 되었다는 뜻¶ 0.5만 되도 나쁘지 않다 실루엣 계수가 –값이라는 것은 해당 데이터의 군집화가 잘못 되었다는 뜻¶ 실루엣 계수 분석(그림으로표시) 후 군집1과 군집2 적절한 거리가 있지만,¶ 군집2,군집3이 매우 가까우면 클러스팅은 잘못되었다고 봐야한다.¶ 붓꽃 데이터에서 실루엣 계수 계산¶ 1.kmeans 군집화 후 클러스터링 값 할당¶ In [ ]: X In [1]: from sklearn.p..
07-1_비지도 학습_군집화(클러스터링)_분석 비지도 학습(Unsupervised Learning)¶ 정답이 없는 데이터를 군집화하여 새로운 데이터에 대한 결과를 예측하는 방법 종류: 클러스터링, k-means 군집화(clustering)¶ centroid(군집 중심점) 기반 centroid(군집 중심점) 기반 데이터 정규분포 기반 데이터 밀도 기반 K-Means clustering¶ K-Means clustering 와 PCA는 회사에서 정말 많이 쓰인다. 같이 쓰기도 하기 때문¶ K-means 와 GMM의 어떤 형태일 때 성능이 더 좋은 가??¶ GMM은 특히 잘 적용이 되는 데이터 분포가 있는데 주로 타원형으로 길게 늘어진 데이터 분포에 적용이 용이하다. Kmeans는 길쭉한 타원형태일 때 더좋은 성능을 가져온다. 붓꽃 데이터 K-Means c..
06-1_PCA 실습_ 타이타닉 데이터 셋 활용 이분의 사이트에서 PCA부분을 보고도 해보았다. https://hmkim312.github.io/posts/%ED%83%80%EC%9D%B4%ED%83%80%EB%8B%89_%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%A1%9C_%ED%95%B4%EB%B3%B4%EB%8A%94_PCA%EC%99%80_kNN/ In [149]: import pandas as pd import matplotlib.pyplot as plt %matplotlib inline df= pd.read_csv('titanic.csv') df Out[149]: survived pclass sex age sibsp parch fare embarked class who adult_male deck embark_town alive..
06_차원 축소_ PCA, LDA , SVD 비지도 확습은 PCA가 최고 성능을 가지고 있다.¶ PCA 클러스터링 앙상블 러닝 In [ ]: PCA(Principal Component Analysis)의 이해¶ pca와 truncated svd는 같은 차원을 축소해서 같은 전처리를 하고 두가지 방법을 모두 쓸수 있지만 추천 시스템을 제외한 방법에서는 pca가 더 정확한 복원률을 가지고 있다. PCA In [151]: from sklearn.datasets import load_iris import pandas as pd import matplotlib.pyplot as plt %matplotlib inline iris = load_iris() columns =['sepal_length','sepal_width','petal_length','peta..
overfitting (오버피팅) 이해 Polynomial Regression 을 이용한 Underfitting, Overfitting 이해¶ cosine 곡선에 약간의 Noise 변동값을 더하여 실제값 곡선을 만듬 In [1]: import numpy as np import matplotlib.pyplot as plt from sklearn.pipeline import Pipeline from sklearn.preprocessing import PolynomialFeatures from sklearn.linear_model import LinearRegression from sklearn.model_selection import cross_val_score %matplotlib inline # random 값으로 구성된 X값에 대해 Cosi..