이론공부/머신러닝
데이터 전처리: feature scaling
넹넹선생님
2024. 4. 4. 16:01
728x90
반응형
- Min-max normalization
- 계산의 편의를 위해 평균 제곱 오차를 2로 나눠줌 -> 손실 함수
실습:
# 필요한 도구 import
from sklearn import preprocessing
import pandas as pd
PATIENT_FILE_PATH = './datasets/liver_patient_data.csv'
pd.set_option('display.float_format', lambda x: '%.5f' % x)
# 데이터 파일을 pandas dataframe으로 가지고 온다
liver_patients_df = pd.read_csv(PATIENT_FILE_PATH)
# Normalization할 열 이름들
features_to_normalize = ['Total_Bilirubin','Direct_Bilirubin', 'Alkaline_Phosphotase', 'Alamine_Aminotransferase']
# 여기에 코드를 작성하세요
scaler = preprocessing.MinMaxScaler()
normalized_data=scaler.fit_transform(liver_patients_df[features_to_normalize])
normalized_df = pd.DataFrame(normalized_data, columns=features_to_normalize)
# 테스트 코드
normalized_df.describe()
728x90
반응형