끄적이는 개발노트
260520_강의 정리 (Data Summerization & EDA) 본문
728x90
■ Data summerization & EDA
- 데이터 분석
- 요약/집계 분석 (Descriptive)
- 현재 데이터의 특성을 수치와 통계로 요약
- 평균, 분포 등 기초 통계 활용
- 탐색적 분석 (EDA, Exploratory)
- 데이터 패턴·이상치·관계를 시각화로 탐색
- 가설 없이 데이터 자체를 이해
- 추론 분석 (Inferential)
- 표본에서 모집단을 추론
- 가설 검정, 신뢰구간, p-value 등이 핵심 도구
- 예측 분석 (Predictive)
- 과거 데이터로 미래를 예측
- 회귀, 분류 등 머신러닝 모델 활용
- 인과관계 분석 (Causal)
- 변수 간 인과를 규명
- 상관관계와 구분되면 A/B 테스트, DoE 방법 사용
- 요약/집계 분석 (Descriptive)
→ 기술통계 → EDA → 추론 → 예측 → 인과 순으로 진행
- 데이터 요약 5가지 기술
- 기술적 통계 (Descriptive Statistics)
- 평균, 중앙값, 표준편차로 데이터의 전체 분포를 수치화
- 시각화 (Visualization)
- 분포, 추세, 비교, 변화를 그래프로 표현
- EDA의 핵심 수단
- 관계 분석 (Relationship Analysis)
- 상관계수, 산점도로 변수 간 관계 파악
- 데이터 집계 (Data Aggregation)
- groupby, pivot_table로 범주별 요약 통계 산출
- 차원 감소 (Dimensionality Reduction)
- PCA, t-SNE 등으로 고차원 데이터를 저차원으로 압축해 패턴 파악
- 주로 Scikit-learn과 함께 사용
- 기술적 통계 (Descriptive Statistics)
- Pandas 집계 함수
- 통계적 집계
- mean() : 평균
- median() : 중앙값
- describe() : 기초통계 요약
- 위치 지표
- quantile(q) : 분위수
- iqr() : 사분위범위
- 산포 지표
- std() : 표준편차
- var() : 분산
- skew() : 왜도
- kurt() : 첨도
- 범위
- max() - min() : Range(범위)
- 변동성 지표
- diff() : 전기 대비 차이
- pct_change() : 모멘텀
- 통계적 집계
- 핵심 요약 도구 (Pandas)
- value_counts()
- 도수분포
- 범주형 열의 빈도수 집계
- groupby()
- 하나 이상의 기준으로 그룹화 후 집계
- 멀티인덱스 지원
- pd.crosstab()
- 행·열 모두 범주형일 때 빈도 교차표 생성
- 카이제곱 검정 전처리에 유용
- df.pivot()
- index, columns, values 세 축으로 데이터를 재구조화
- 중복값 없어야 함
- pivot_table()
- pivot + aggfunc 조합
- 중복 허용, 집계함수 지정 가능
- value_counts()
- Long vs Wide 형식
- Wide 형식 (넓은 형식)
- 한 행에 여러 변수가 열로 나열
- 사람이 읽기 편한 표 형태
- Excel 스프레드시트와 유사
- Long 형식 (긴 형식)
- 각 관측값이 한 행으로 기록
- Pandas, ggplot 분석에 적합
- groupby, pivot에서 출발점
- pd.melt : Wide → Long 변환
- df.pivot() : Long → Wide 변환
- Wide 형식 (넓은 형식)
- EDA 전체 분석 흐름
- 핵심 파이프라인
- 범주화 → 데이터 요약 → 시각화
- 분석 흐름
- 데이터 → 정보 → 패턴 → 해석 → 의사결정
- df.shape, df.info() : 구조 파악
- df.describe() : 기초통계 확인
- df.isnull().sum() : 결측값 확인
- value_counts() : 범주형 분포
- 히스토그램·박스플롯 : 수치형 분포
- 상관관계 히트맵 : 변수 간 관계 파악
- 데이터 → 정보 → 패턴 → 해석 → 의사결정
- 핵심 파이프라인
728x90
'Python' 카테고리의 다른 글
| 260522_강의 정리 (시계열분석, Statsmodel) (0) | 2026.05.27 |
|---|---|
| 260521_강의 정리 (시계열 분석) (0) | 2026.05.21 |
| 260519_강의 정리 (데이터 전처리) (0) | 2026.05.20 |
| 260518_강의 정리 (Pandas) (0) | 2026.05.18 |
| 260512_강의 정리 (NumPy) (0) | 2026.05.13 |
