공부/기계학습 및 인공지능 16

Machine Learning (기계학습) - part 12 [AutoML (Automated Machine Learning)]

2021년도에 대학교 과목으로 들었던 '기계학습' 강의를 복습 및 정리 + 추가적인 공부를 위해 이 글을 작성한다. (세종대학교 최유경 교수님 '2021 기계학습'수업) 이번 파트는 대망의 마지막 파트로 지금까지 배운 모든 기계학습 개념을 하나의 툴로써 전부 적용하여 최고의 모델을 자동으로 산출해주는 AutoML을 살펴 보려한다. AutoML AutoML이란, Automated Machine Learning로, 기계 학습 파이프 라인(전처리, 학습, 검증 등)에서 이루어지는 작업들을 자동으로 처리해주고 이 과정의 모든 경우의 수들 중 가장 적합하고 성능이 좋은 모델을 산출해주는 기능이다. 한마디로 혁신 그자체인 것이다. 앞선 파트들에서 해왔듯이 데이터 전처리, 모델 학습 및 검증 등 다양한 과정을 거치며..

Machine Learning (기계학습) - part 11 [XGBoost (eXtream Gradient Boosting)]

XGBoost와 관련된 내용은 고려대학교 산업경영공학부 DSBA 연구실 강필성 교수님의 강의를 듣고 작성했다. 이전 파트는 앙상블과 그에 따른 배깅, 부스팅 기법에 대해 알아보았다. 이 부스팅 기법에는 GBM이 있었는데, 이런 GBM의 비효율적인 측면을 개선하고자 나온 LightGBM까지 알아보았다. 하지만, GBM의 개선 버전은 LightGBM 뿐만 아니라 XGboost, Catboost도 존재한다. 이런 개선버전들은 머신러닝 경진대회에서 자주 사용되는 부스팅 기법이기에 더 알아볼 필요가 있다고 생각되어 이번 파트에서 XGboost에 대해 추가적으로 공부를 하고 작성해 보았다. XGBoost (eXtream Gradient Boosting) 이론 XGBoost는 eXtream Gradient Boost..

Machine Learning (기계학습) - part 10 [앙상블(Ensemble),부스팅(Boosting)]

2021년도에 대학교 과목으로 들었던 '기계학습' 강의를 복습 및 정리 + 추가적인 공부를 위해 이 글을 작성한다. (세종대학교 최유경 교수님 '2021 기계학습'수업) 이번 파트는 머신러닝의 꽃이자 종착역인 앙상블에 대해 알아본다. 사실 앙상블은 여러 의미를 지니고 여러 용도를 가지고 있지만, 여기서는 이전에 배웠던 지도학습의 여러 모델들을 다 같이 사용하거나 하나의 모델을 여러번 사용하여 더 좋은 결과를 얻는 방법에 관한 앙상블에 대해 알아보려 한다. 앙상블(Ensemble) 이론 앙상블이란, 여러 분류기를 하나로 연결하여 개별 분류기보다 더 좋은 일반화(generalization) 성능을 달성하는 것을 이야기한다. 즉, '여러 모델을 함께 사용하자!'의 아이디어인 것이다. 이 앙상블에는 여러 분류 ..

Machine Learning (기계학습) - part 9 [교차 검증, 모델 최적화, 파이프라인]

2021년도에 대학교 과목으로 들었던 '기계학습' 강의를 복습 및 정리 + 추가적인 공부를 위해 이 글을 작성한다. (세종대학교 최유경 교수님 '2021 기계학습'수업) 이번 파트는 지금까지 배운 기계학습(지도학습, 비지도학습)을 실제로 적용할 때 유용하고 또 필요한 기술들에 대해 배우려고 한다. 이 기술에는 교차검증, 파이프라인, 모델 최적화, 최적의 하이퍼 파라미터 찾기 등이 있다. 1. 교차 검증 (Cross Validation) 이론 우리가 지금까지 학습된 모델을 검증했던 과정을 생각해보자. 학습데이터를 통해 우리가 정한 모델을 학습하고 검증데이터를 통해 해당 모델의 최적의 하이퍼파라미터를 선택했으며 마지막으로는 학습이나 검증에 이용한 적이 없는 실제 시험데이터의 정밀도를 측정했다. 이 과정에서 ..

Machine Learning (기계학습) - part 8 [차원축소, 주성분 분석(PCA)]

2021년도에 대학교 과목으로 들었던 '기계학습' 강의를 복습 및 정리 + 추가적인 공부를 위해 이 글을 작성한다. (세종대학교 최유경 교수님 '2021 기계학습'수업) 저번 파트는 비지도학습(Unsupervised learning)의 군집화에 대해 알아보았다. 이번 파트에는 비지도학습의 또 다른 방법인 변환(Transform)의 차원축소(주성분 분석 : PCA)에 대해 알아보자. [변환(Transform): 데이터를 새롭게 표현하여 사람이나 학습 모델이 원래 데이터보다 쉽게 해석할 수 있도록 만드는 것] 차원축소 차원축소는 일반적으로 머신러닝 알고리즘을 적용할 때 사용되기보다는 데이터의 전처리 과정에서 사용된다. 즉, 정규화, 텍스트/영상 처리 등 과 같이 머신러닝이 보다 좋은 예측을 이끌기 위해 해주..

Machine Learning (기계학습) - part 7 [비지도학습 (Unsupervised learning), 군집화(Clustering)]

2021년도에 대학교 과목으로 들었던 '기계학습' 강의를 복습 및 정리 + 추가적인 공부를 위해 이 글을 작성한다. (세종대학교 최유경 교수님 '2021 기계학습'수업) 저번 파트까진 지도학습(Supervised learning)에 대해 배우고 지도학습의 대표적인 학습 모델에 대해서 알아보았다.이번 주차부터는 지도학습과는 다른 비지도학습(Unsupervised learning)에 대해 알아보고 비지도학습의 대표적인 학습 모델을 소개하려 한다. 비지도학습(Unsupervised Learning) 비지도학습은 말 그대로 학습을 지도하는 가이드 라인(결과값)이 없다고 생각하면 된다. 즉, 입력값에 대한 결과값(목표값)이 주어지지 않은 상태에서 데이터가 어떻게 구성되었는지를 중점적으로 학습을 진행한다. 지도학습..

Machine Learning (기계학습) - part 6 [SVM (Support Vector Machine)]

2021년도에 대학교 과목으로 들었던 '기계학습' 강의를 복습 및 정리 + 추가적인 공부를 위해 이 글을 작성한다. (세종대학교 최유경 교수님 '2021 기계학습'수업) 저번 파트에 이어서 이번에도 지도학습의 학습 모델 중 SVM(Support Vector Machine)에 대해 알아본다. SVM은 기본적인 학습 모델들(Logistic Regression, DA, .. )과 같이 예측 모델을 만들고 이 모델의 파라미터를 추정하여 예측을 진행한다. SVM(Support Vector Machine) 이론 SVM은 패턴인식, 자료 분석을 위해 널리 사용되는 지도학습모델이다. 분류와 회귀 두가지 문제에 대해 모두 적용이 가능하지만, 주로 분류 문제에 사용된다. SVM의 기본적인 개념은 두 카테고리 중 어느 하나..

Machine Learning (기계학습) - part 5 [의사결정나무(Decision Tree)]

2021년도에 대학교 과목으로 들었던 '기계학습' 강의를 복습 및 정리 + 추가적인 공부를 위해 이 글을 작성한다. (세종대학교 최유경 교수님 '2021 기계학습'수업) 저번 파트에 이어서 이번에도 지도학습의 학습 모델 중 의사결정나무(Decision Tree)에 대해 알아본다. 의사결정나무(Decision Tree)는 이전 파트에 배웠던 학습 모델들과는 같이 예측 모델을 만들고 이 모델의 파라미터를 추정하여 예측을 진행하지 않고 특정 알고리즘을 통해 학습 및 예측을 진행한다. 의사결정나무같은 경우 최근에 자주 사용되는 다양한 앙상블 머신러닝 기법의 기반이기에 좀 더 확실히 인지하고 갈 필요가 있다. 의사결정나무(Decision Tree) 이론 의사결정나무란 무엇일까? 의사결정나무란 학습 데이터 자체를 ..

Machine Learning (기계학습) - part 4 [판별분석(Discriminant Analysis)]

2021년도에 대학교 과목으로 들었던 '기계학습' 강의를 복습 및 정리 + 추가적인 공부를 위해 이 글을 작성한다. (세종대학교 최유경 교수님 '2021 기계학습'수업) 저번 파트에 이어서 이번에도 지도학습의 학습 모델 중 판별 분석(Discriminant Analysis)에 대해 알아본다. 판별 분석(Discriminant Analysis)은 이전 파트에 배웠던 로지스틱 회귀 모델과 같이 예측 모델을 만들고 이 모델의 파라미터를 추정하여 예측을 진행한다. 하지만 로지스틱 회귀 모델과 달리 데이터의 관계를 잘 표현하는 함수를 학습하는 것이 아닌 데이터의 분포를 잘 표현하는 함수를 학습한다. 판별 분석(Discriminant Analysis) 이론 선형 판별 분석과 이차 판별 분석이 구분되지만 대표적인 선..

Machine Learning (기계학습) - part 3 [로지스틱 회귀(Logistic Regression)]

2021년도에 대학교 과목으로 들었던 '기계학습' 강의를 복습 및 정리 + 추가적인 공부를 위해 이 글을 작성한다. (세종대학교 최유경 교수님 '2021 기계학습'수업) 저번 part에 이어서 이번에도 지도학습의 학습 모델 중 로지스틱 회귀(Logistic Regression)에 대해 알아본다. 이전에 배웠던 KNN같은 경우 학습 데이터 자체분석하여 예측을 진행하였다. 하지만 로지스틱 회귀 모델은 여타 다른 학습 모델과 같이 예측 모델을 만들고 이 모델의 파라미터를 추정하여 예측을 진행한다. 로지스틱 회귀(Logistic Regression)를 알아보기 전 우린 선형 회귀(Linear Regression)에 대해 알아볼 필요가 있다. 선형회귀는 딥러닝의 핵심인 퍼셉트론의 기반이 되는 모델이기에 추후 다룰..