01_선형회귀 모델을 위한 데이터 변환¶
02_로그 변환, 스케일러, 다항 특성 적용¶
회귀를 위한 데이터 변환 방법 -인코딩¶
- 선형 회귀의 데이터 인코딩은 일반적으로 레이블 인코딩이 아니라 원핫 인코딩을 적용합니다.
03_ 피처 데이터 변환에 따른 예측 성능 비교¶
- 타겟값은 비교적 정규화가 잘 되어 있다. 피처값만 정규화를 해주면 된다.
In [2]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler, PolynomialFeatures
# method는 표준 정규 분포 변환(Standard), 최대값/최소값 정규화(MinMax), 로그변환(Log) 결정
# p_degree는 다향식 특성을 추가할 때 적용. p_degree는 2이상 부여하지 않음.
def get_scaled_data(method='None', p_degree=None, input_data=None):
if method == 'Standard':
scaled_data = StandardScaler().fit_transform(input_data)
elif method == 'MinMax':
scaled_data = MinMaxScaler().fit_transform(input_data)
elif method == 'Log':
scaled_data = np.log1p(input_data)
else:
scaled_data = input_data
if p_degree != None:
scaled_data = PolynomialFeatures(degree=p_degree,
include_bias=False).fit_transform(scaled_data)
return scaled_data
'머신러닝 > 회귀' 카테고리의 다른 글
05-1_실습_UCIDATASET_콘크리트_회귀실습 (0) | 2022.10.25 |
---|---|
05_회귀 실습_자전거 대여 수요 예측_ 캐글 (0) | 2022.10.25 |
3_규제 선형 회귀__릿지, 라쏘, 엘라스틱넷 (0) | 2022.10.25 |
2_다항 선형 회귀 (0) | 2022.10.25 |
1_다중 선형 회귀 (0) | 2022.10.25 |