728x90
반응형

Python 29

[Python Crawling] #1 Web Crawling의 이해와 준비

안녕하세요 코코잼잼입니다. 데이터 수집을 하는 과정에서 우리는 직접 CSV, JSON, EXCEL 형태의 파일을 사용할 수도 있지만, 웹 상에서 크롤링을 통해 데이터를 수집하는 방법도 있습니다. 이번 기회에 웹 상에서 데이터를 수집하는 방법을 알아보도록 하겠습니다. Web Crawling Web Crawling 이란? 웹 상에 존재하는 다양한 형태(이미지, 텍스트, API 등)의 정보(데이터)를 추출하고, 수집하는 것을 말합니다. 예를 들어 최근 트렌드를 알아보기 위해 특정 검색어에 따른 결과들에 어떤 단어들이 쓰이는지, 빈도 수나 이미지들을 코딩을 통해 웹사이트의 내용들을 싹 긁어와서 데이터로 활용할 수 있습니다. 이는 데이터 분석에서 매우 중요한 요소이므로 꼭 알아두었으면 합니다. 이번 글에서는 ["..

Python/Crawling 2023.05.26

[공공 데이터 API 활용] 산불 피해 최소화 - 6. 데이터 정의서 및 ERD

목차 데이터 목록 및 출처 데이터 테이블 정의서 ERD (Entity Relationship Diagram) 데이터 전처리 방향 1. 데이터 목록 및 출처 기상청 - 관측 지점 정보 기상청 - 지상(종관, ASOS) 일 자료 기상청 - 지상(종관, ASOS) 시간 자료 산림청 - 산불 발생 현황 네이버 - 위도 경도 참조 첨부자료 2. 데이터 테이블 정의서 테이블 정의서 예시 3. ERD (Entity Relationship Diagram) 미작성 4. 데이터 전처리 방향 이상치 제거 결측치 치환 OR 제거 필요한 Column 추출

Project/Study 2023.05.26

[공공 데이터 API 활용] 산불 피해 최소화 - 5. 기초 준비 단계

목차 PPT 목차 작성 GitHub Repository 생성 Streamlit 초안 1. PPT 목차 작성 PPT 목차 작성을 통한 프로젝트 방향 및 세부과정 확인 2. GitHub Repository GitHub를 통한 매일 내용 업데이트 및 Streamlit 배포 준비 release 작성으로 매일 진행사항 체크 3. Streamlit 초안 Streamlit 배포를 통한 포트폴리오 이용 미리 메뉴와 Layout을 설정 추후 메뉴 수정 가능성이 있지만 각 파트별로 함수화를 통해 데이터 및 시각화 삽입

Project/Study 2023.05.25

[공공 데이터 API 활용] 산불 피해 최소화 - 2. 프로젝트 기획

목차 1. 서론내용 2. 데이터 수집 방법 3. 통계 분석 4. 결론 5. 역할 분담 1. 서론 내용 - 배경 1. 기사 등을 통해 대형산불상황에 대한 위험성을 언급 2. 기사 등을 통해 산불 예방의 중요성을 언급 3. 기사 등을 통해 산불을 초기에 진화의 중요성을 언급방법 2. 데이터 수집 방법 - 문헌/전문가 1. 논문을 통해 산불 일어날 수 있는 상황을 예측할 수 있는 도메인 지식 습득 2. 논문을 통해 산불의 진행 상황에 대해 도메인 지식 습득과 산불 초기진화의 중요성에 대해선행 연구 방안 습득 3. 논문을 통해 산불 초기 진화 방안 마련 - 데이터 수집 도메인 지식을 통해 분석에 필요할 것으로 보인 데이터 적극 수집 데이터 시각화를 통해 데이터에 대한 1차 분석 3. 통계 분석 1) 데이터 전처..

Project/Study 2023.05.22

[공공 데이터 API 활용] 산불 피해 최소화 - 1. 프로젝트의 시작

프로젝트의 시작 (2023.05.22 ~ 2023.06.23) 목차 1. 프로젝트 목표 2. 팀 구성 3. 세부 수행 내용 4. 습득 직무 역량 5. 과제 완성 절차 6. 세부 목표 일정 7. 과제 진행 상황 1. 프로젝트 목표 귀중한 자산이면서 휴식의 공간을 제공하는 산림에 대한 선제적 산불 예측 대응 체계를 위하여 산불위험 예보시스템을 구축하고자 실시간 기상/지형 상태 및 SNS 정보 등을 활용한다. 산림재해가 빈번한 곳에 구축된 상악 자동 기상관측 타워로부터 습도, 강수량, 지면 온도, 기온, 기압 등의 정보를 실시간으로 관측해 악기상이 산불 징후에 미치는 영향을 분석한다. 행정안전부의 SNS 데이터와 산불발생지의 산사태, 병해충, 산림 상태, 임산물 재배적지 정보 등의 데이터를 활용한다. 산불 위..

Project/Study 2023.05.22

[Python Project (Store Sales - Time Series Forecasting )] 9. Streamlit 배포 및 GitHub 업로드

프로젝트가.. 어찌어찌 완료되었다. 중간 과정은 정리 후에 차후 업로드 예정이다. GitHub https://github.com/ChoiJMS2/Kaggle_StoreSales Streamlit https://choijms2-kaggle-storesales-app-a383bo.streamlit.app/ 데모 시연 영상 무언가 많은 부족함을 느꼈다. 도메인 지식부터 코딩에 대한 지식, 머신러닝까지.. 기초부터 차근차근 공부해 나가 보자.

Project/Kaggle 2023.05.19

[Python Project (Store Sales - Time Series Forecasting )] 8. 기본 대쉬보드 생성

목차 Streamlit & GitHub 이용하기 app.py description.py data.py eda.py stat.py ml.py 1. Streamlit & GitHub 이용하기 이번 프로젝트의 배포를 위해 Streamlit과 GitHub를 이용하였다. Streamlit & GitHub 배포 방법 [Streamlit] 설치 및 시작하기 / GitHub로 배포하기 Streamlit 기본 API 사용법 [Python Streamlit] IRIS 데이터를 활용한 머신러닝 대시보드 개발 [Streamlit] 기본 API reference (기본 기능) Streamlit 공식 홈페이지 API reference 2. app.py Streamlit 배포 페이지의 main 프로젝트 소개 데이터 출처 작업 툴,..

Project/Kaggle 2023.05.03

[Python Project (Store Sales - Time Series Forecasting )] 7. 데이터 탐색 시각화 시나리오

1. Total sales(총매출) : Hope to see an overall trend or the some spike in sales 전반적인 추세 또는 매출 급증한 부분 찾기 (perhaps the earthquake would have a big effect. 지진의 영향 클 수 있음) 2. Daily sales by each stores(각 매장별 일별 매출) : Hope to see the trend and pattern in sales throughout the timeframe. 해당 기간 동안의 매출 추세와 패턴을 확인 3. Sales by product family, by time(제품군별, 시간대별 판매량) : Hope to see the trend and pattern in sal..

Project/Kaggle 2023.05.02

[Python 통계 분석 실습] 2. Independent-Sample(독립표본) T-TEST

이전 글 이론 : [T-test] 독립표본과 대응표본의 평균 검정 실습 1 : [Python 통계 분석 실습] 1. Z-TEST & One-Sample T-TEST 실습의 과정과 목표 Python (Google colab) 사용 다시 한번 이론 정리 간단한 예제 코드로 분석해 보기 그래프 시각화 해보기 이 글의 내용과 예제코드의 출처는 연세 IT미래교육원의 수업 과정 중 정지훈 강사님의 교육을 바탕으로 작성되었습니다. 두 번째 실습 예제는 Independent-Sample(독립표본) T-Test에 대한 예제이다. 목차 두 평균의 비교 Independent Sample T-Test Independent Sample T-Test 예제 실습 1. 두 평균의 비교 두 집단의 평균 비교는 실무에서 자주 쓰이는 테..

Python/실습 2023.04.30

[Python 통계 분석 실습] 1. Z-TEST & One-Sample T-TEST

본 블로그의 [T-test] 독립표본과 대응표본의 평균 검정 글에서 T-test의 개념에 대해 다뤄보았다. 이론을 공부했다면 예제 실습을 해 보는 것은 당연한 수순이라 생각한다. 따라서 앞선 이론을 바탕으로 Z-test, One-Sample T-test(단일 표폰 t-test), Independent_Sample T-test(독립표본 t-test), Paired_Sample T-test(대응표본 t-test) 등에 대해 실습해 보자. 실습의 과정과 목표 Python (Google colab) 사용 다시 한번 이론 정리 간단한 예제 코드로 분석해 보기 그래프 시각화 해보기 이 글의 내용과 예제코드의 출처는 연세 IT미래교육원의 수업 과정 중 정지훈 강사님의 교육을 바탕으로 작성되었습니다. 첫 실습 예제는 ..

Python/실습 2023.04.27
728x90
반응형
LIST