이론공부/머신러닝

데이터 전처리: feature scaling

넹넹선생님 2024. 4. 4. 16:01
728x90
반응형

- Min-max normalization

 

 

- 계산의 편의를 위해 평균 제곱 오차를 2로 나눠줌 -> 손실 함수

 

실습:

# 필요한 도구 import
from sklearn import preprocessing
import pandas as pd

PATIENT_FILE_PATH = './datasets/liver_patient_data.csv'
pd.set_option('display.float_format', lambda x: '%.5f' % x)

# 데이터 파일을 pandas dataframe으로 가지고 온다
liver_patients_df = pd.read_csv(PATIENT_FILE_PATH)

# Normalization할 열 이름들
features_to_normalize = ['Total_Bilirubin','Direct_Bilirubin', 'Alkaline_Phosphotase', 'Alamine_Aminotransferase']

# 여기에 코드를 작성하세요
scaler = preprocessing.MinMaxScaler()
normalized_data=scaler.fit_transform(liver_patients_df[features_to_normalize])
normalized_df = pd.DataFrame(normalized_data, columns=features_to_normalize)
# 테스트 코드
normalized_df.describe()

728x90
반응형