728x90
반응형

이론공부/머신러닝 14

TDA, 위상학적 분석

https://youtu.be/dv5W-_kWRYM?si=Jfwxz7OZMph7gFTF  영상은 통계적 추정을 통해 데이터 분석의 기초를 다루고 있으며, 데이터 속에서 유의미한 특성을 추출하는 과정을 설명합니다. 김지수 박사는 우주의 구조를 예로 들어 데이터 군집화와 위상적 지식의 중요성을 강조하며, 실질적인 문제 해결을 위한 다양한 방법론을 소개합니다. 이를 통해 청중들은 통계적 분석의 실용성과 응용 가능성을 이해하고, 최신 데이터 과학 기술에 대한 통찰을 얻을 수 있습니다. 1. 🌌 발표자 소개와 주제 개요 발표자 김지수는 카네기 멜론 대학교에서 공부하고 현재 프랑스의 INRIA 연구소에서 데이터 분석을 연구하고 있다 .[1-2]발표 주제는 "위상적 자료 분석에 통계적 추정"이며, 약 30분간 발표..

Gaussian Process Regression(GPR), Bayesian Optimization(BO)

Gaussian Process and Bayesian Optimization:https://velog.io/@jaewonalive/Gaussian-process-and-Bayesian-Optimization Gaussian Process and Bayesian Optimization2021데이터 크리에이터 캠프 대회를 준비하는 팀원들끼리 스터디를 진행하면서 bayesian optimization 주제를 내가 맞게 되었다. Bayesian optimization을 찾아보던 중 gaussian process에 기반한 방법이라는 것을velog.ioLecture 15: Gaussian Processeshttps://www.cs.cornell.edu/courses/cs4780/2018fa/lectures/lect..

과적합 문제 해결

- 과소적합의 경우 : 충분히 복잡한 모델 사용하기 (많은 굴곡 이용해서 함수가 train 데이터셋 최대한 많이 통과) but, 단순히 복잡한 모델을 이용해서 학습하는 경우 과적합 가능성 높음 실습: 다항회귀모델 학습 시키기 from sklearn.preprocessing import PolynmialFeatures polynomial_transformer = PolynomialFeatures(6) # 6차항의 다항회귀 모델 사용 polynomial_features = polynomial_transformer.fit_transform(X.values) features = polynomial_transformer.get_feature_names(X.columns) X = pd.DataFrame( polyn..

데이터 전처리: standardization

- 데이터 평균: - 데이터 표준 편차: - 표준화: 실습: from sklearn import preprocessing import pandas as pd import numpy as np NBA_FILE_PATH = '../datasets/NBA_player_of_the_week.csv' # 소수점 5번째 자리까지만 출력되도록 설정 pd.set_option('display.float_format', lambda x: '%.5f' % x) nba_player_of_the_week_df = pd.read_csv(NBA_FILE_PATH) height_weight_age_df = nba_player_of_the_week_df[['Height CM', 'Weight KG', 'Age']] # 데이터를 sta..

앙상블: 에다부스트

2. Boosting () 다양한 알고리즘 존재 - 에다 부스트(Adaboost) : 스텀프 모델들을 이용하여 성능주의적 예측 - 중요도를 이용하여 스텀프 추가하기 - 실 from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split from sklearn.ensemble import AdaBoostClassifier import pandas as pd # 데이터 셋 불러 오기 cancer_data = load_breast_cancer() # 챕터 1 유방암 데이터 준비하기 과제에서 쓴 코드를 갖고 오세요 X = pd.DataFrame(cancer_data.data, columns=can..

데이터 전처리: feature scaling

- Min-max normalization - 계산의 편의를 위해 평균 제곱 오차를 2로 나눠줌 -> 손실 함수 실습: # 필요한 도구 import from sklearn import preprocessing import pandas as pd PATIENT_FILE_PATH = './datasets/liver_patient_data.csv' pd.set_option('display.float_format', lambda x: '%.5f' % x) # 데이터 파일을 pandas dataframe으로 가지고 온다 liver_patients_df = pd.read_csv(PATIENT_FILE_PATH) # Normalization할 열 이름들 features_to_normalize = ['Total_Bil..

앙상블-결정트리, bagging (RandomForest), boosting (Adaboost)

- 결정트리는 부정확성을 가지기 때문에 이상적 머신러닝이 아님 - 하지만, 앙상블기법을 통해 성능이 좋은 다른 모델을 만들 수 있음 - 앙상블: 하나의 모델을 쓰는 대신, 수많은 모델들을 사용해 종합적 판단을 하는 방법 - 앙상블 기법: 랜덤 포레스트: 트리모델을 임의로 많이 만들어서 다수결 투표로 결과를 종합하는 알고리즘 트리 모델 임의로 많이 만드는 방법: 1. Bagging (Bootstrapping-aggregating) : Bootstrap데이터 셋으로 만든 수많은 모델을 종합 Bootstrapping: 갖고 있는 데이터 셋으로 다른 데이터 셋을 만들어내는 방법 매 노드를 만들 때 임의로 만들기 때문에 수많은 서로 다른 결정 트리들이 나옴 결정 트리 하나를 만들기 위해서, 1) bootstrap..

728x90
반응형