728x90
반응형

머신러닝 5

[데이터 분석] Data Leakage Part 4. sklearn.pipeline 실습예제(1)

이번 글에서는 python의 sklearn 모듈의 pipeline에 대한 예제를 다뤄볼 예정이다. 앞의 글 [데이터 분석] Data Leakage Part 2. Pipeline architecture [데이터 분석] Data Leakage Part 3. sklearn.pipeline 을 참고하면 이해하는데 도움이 될 수 있다. 1. Pipeline 사용법 간단하게 ①변수선택 → ②표준화 → ③모형학습 3단계를 가정해 보자. 1) Pipeline을 사용하지 않았을 경우 기존 방식대로 위의 3단계를 수행할 경우 ①변수선택부터 ②표준화, ③모형학습까지 각각 하나하나 코딩해야 한다. # 필요한 라이브러리 불러오기 from sklearn.feature_selection import SelectKBest, f_cl..

머신러닝 2023.04.23

[데이터 분석] Data Leakage Part 3. sklearn.pipeline

[데이터 분석] Data Leakage Part 2. Pipeline architecture [데이터 분석] Data Leakage Part 2. Pipeline architecture Data Leakage Part 1. 글에서 Data Leakage의 발생과 문제점 감지 등에 대해 다루었다. 이번 글에서는 Data Leakage의 해결방안 중 하나인 Pipeline architecture에 대해 알아보겠다. 목차 1. Pipeline architecture 란 무엇 james-choi88.tistory.com 에서 Data Leakage의 해결방안 중 하나인 Pipeline architecture에 대해 알아보았다. 이번 글에서는 python에서 sklearn.pipeline 라이브러리에 대해 알아보..

머신러닝 2023.04.21

[데이터 분석] Data Leakage Part 2. Pipeline architecture

Data Leakage Part 1. 글에서 Data Leakage의 발생과 문제점 감지 등에 대해 다루었다. 이번 글에서는 Data Leakage의 해결방안 중 하나인 Pipeline architecture에 대해 알아보겠다. 목차 1. Pipeline architecture 란 무엇인가? 2. Pipeline의 장점 3. Python에서 Scikt-Learn을 통한 Pipeline architecture 활용하기 (Scikit-Learn Machine Learning Pipeline) 1. Pipeline architecture 란 무엇인가? 머신러닝에서 Data Leakage에 빠지지 않기 위한 방법 중 하나로 Cross_Validated(교차 검증)이 있다. 교차 검증은 간단히 말해 모델 별로 전..

머신러닝 2023.04.21

[데이터 분석] Data Leakage Part 1.

목차 1. 머신러닝 예측 모델의 목적 2. Data Leakage란 무엇인가? 3. Data Leakage는 어떻게 발생하는가? 4. Data Leakage의 감지 (확인) 5. Data Leakage의 해결 방안 6. 글을 마치며 1. 머신러닝 예측 모델의 목적 우리가 머신러닝의 주된 목적은 [ "예측" ]이다. 즉, 현재 가지고 있는 데이터를 통해 새로운 데이터를 보다 빠르고 정확하게 예측 모델을 만드는 것이 우리의 과제이다. 과거 또는 현재의 데이터를 가지고 이를 가공하고 훈련시켜 미래를 예측하는 모델을 만드는 것이 그 예이다. 머신러닝에서 학습모델의 성능을 향상시키기 위한 작업을 하다가 갑자기 정확도가 높아졌다면 즉, Overfitting(과적합) 현상이 발생했다면 그 원인은 대부분 Data Le..

머신러닝 2023.04.20

[데이터 분석] Feature Engineering

머신러닝을 수행하는 데 있어 가장 오랜 시간이 필요한 부분은 데이터 준비이다. 데이터를 EDA(탐색적 자료분석)하면서 중요한 Feature를 Selection 하여 학습하게 되는데 단순히 그것만으로는 부족하다. 왜냐하면 데이터가 한쪽으로 치우쳤거나 Missing Value(결측치)가 많을 수 있기 때문이다. 이를 어느 정도 바로 잡아주는 것을 [ Feature Engineering ]이라고 한다. Feature Engineering 이란? 머신러닝 알고리즘이 잘 작동할 수 있도록 데이터 테이블의 컬럼(특징)을 생성하거나 선택하는 작업 Target 변수를 가장 잘 표현할 수 있도록 데이터를 가공해야 하고, 해당 도메인에 대한 지식이 필요하다. 모델 성능에 미치는 영향이 크기 때문에 머신러닝 응용에 있어 가..

머신러닝 2023.04.19
728x90
반응형
LIST