728x90
반응형

Pipeline 2

[데이터 분석] Data Leakage Part 4. sklearn.pipeline 실습예제(1)

이번 글에서는 python의 sklearn 모듈의 pipeline에 대한 예제를 다뤄볼 예정이다. 앞의 글 [데이터 분석] Data Leakage Part 2. Pipeline architecture [데이터 분석] Data Leakage Part 3. sklearn.pipeline 을 참고하면 이해하는데 도움이 될 수 있다. 1. Pipeline 사용법 간단하게 ①변수선택 → ②표준화 → ③모형학습 3단계를 가정해 보자. 1) Pipeline을 사용하지 않았을 경우 기존 방식대로 위의 3단계를 수행할 경우 ①변수선택부터 ②표준화, ③모형학습까지 각각 하나하나 코딩해야 한다. # 필요한 라이브러리 불러오기 from sklearn.feature_selection import SelectKBest, f_cl..

머신러닝 2023.04.23

[데이터 분석] Data Leakage Part 2. Pipeline architecture

Data Leakage Part 1. 글에서 Data Leakage의 발생과 문제점 감지 등에 대해 다루었다. 이번 글에서는 Data Leakage의 해결방안 중 하나인 Pipeline architecture에 대해 알아보겠다. 목차 1. Pipeline architecture 란 무엇인가? 2. Pipeline의 장점 3. Python에서 Scikt-Learn을 통한 Pipeline architecture 활용하기 (Scikit-Learn Machine Learning Pipeline) 1. Pipeline architecture 란 무엇인가? 머신러닝에서 Data Leakage에 빠지지 않기 위한 방법 중 하나로 Cross_Validated(교차 검증)이 있다. 교차 검증은 간단히 말해 모델 별로 전..

머신러닝 2023.04.21
728x90
반응형
LIST