260520_강의 정리 (Data Summerization & EDA)

Notice

Recent Posts

Recent Comments

Link

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

끄적이는 개발노트

260520_강의 정리 (Data Summerization & EDA) 본문

Python

260520_강의 정리 (Data Summerization & EDA)

크런키스틱 2026. 5. 20. 18:32

728x90

■ Data summerization & EDA

데이터 분석
- 요약/집계 분석 (Descriptive)
  - 현재 데이터의 특성을 수치와 통계로 요약
  - 평균, 분포 등 기초 통계 활용
- 탐색적 분석 (EDA, Exploratory)
  - 데이터 패턴·이상치·관계를 시각화로 탐색
  - 가설 없이 데이터 자체를 이해
- 추론 분석 (Inferential)
  - 표본에서 모집단을 추론
  - 가설 검정, 신뢰구간, p-value 등이 핵심 도구
- 예측 분석 (Predictive)
  - 과거 데이터로 미래를 예측
  - 회귀, 분류 등 머신러닝 모델 활용
- 인과관계 분석 (Causal)
  - 변수 간 인과를 규명
  - 상관관계와 구분되면 A/B 테스트, DoE 방법 사용

→ 기술통계 → EDA → 추론 → 예측 → 인과 순으로 진행

데이터 요약 5가지 기술
- 기술적 통계 (Descriptive Statistics)
  - 평균, 중앙값, 표준편차로 데이터의 전체 분포를 수치화
- 시각화 (Visualization)
  - 분포, 추세, 비교, 변화를 그래프로 표현
  - EDA의 핵심 수단
- 관계 분석 (Relationship Analysis)
  - 상관계수, 산점도로 변수 간 관계 파악
- 데이터 집계 (Data Aggregation)
  - groupby, pivot_table로 범주별 요약 통계 산출
- 차원 감소 (Dimensionality Reduction)
  - PCA, t-SNE 등으로 고차원 데이터를 저차원으로 압축해 패턴 파악
  - 주로 Scikit-learn과 함께 사용
Pandas 집계 함수
- 통계적 집계
  - mean() : 평균
  - median() : 중앙값
  - describe() : 기초통계 요약
- 위치 지표
  - quantile(q) : 분위수
  - iqr() : 사분위범위
- 산포 지표
  - std() : 표준편차
  - var() : 분산
  - skew() : 왜도
  - kurt() : 첨도
- 범위
  - max() - min() : Range(범위)
- 변동성 지표
  - diff() : 전기 대비 차이
  - pct_change() : 모멘텀
핵심 요약 도구 (Pandas)
- value_counts()
  - 도수분포
  - 범주형 열의 빈도수 집계
- groupby()
  - 하나 이상의 기준으로 그룹화 후 집계
  - 멀티인덱스 지원
- pd.crosstab()
  - 행·열 모두 범주형일 때 빈도 교차표 생성
  - 카이제곱 검정 전처리에 유용
- df.pivot()
  - index, columns, values 세 축으로 데이터를 재구조화
  - 중복값 없어야 함
- pivot_table()
  - pivot + aggfunc 조합
  - 중복 허용, 집계함수 지정 가능
Long vs Wide 형식
- Wide 형식 (넓은 형식)
  - 한 행에 여러 변수가 열로 나열
  - 사람이 읽기 편한 표 형태
  - Excel 스프레드시트와 유사
- Long 형식 (긴 형식)
  - 각 관측값이 한 행으로 기록
  - Pandas, ggplot 분석에 적합
  - groupby, pivot에서 출발점
- pd.melt : Wide → Long 변환
- df.pivot() : Long → Wide 변환
EDA 전체 분석 흐름
- 핵심 파이프라인
  - 범주화 → 데이터 요약 → 시각화
- 분석 흐름
  - 데이터 → 정보 → 패턴 → 해석 → 의사결정
    - df.shape, df.info() : 구조 파악
    - df.describe() : 기초통계 확인
    - df.isnull().sum() : 결측값 확인
    - value_counts() : 범주형 분포
    - 히스토그램·박스플롯 : 수치형 분포
    - 상관관계 히트맵 : 변수 간 관계 파악

728x90

'Python' 카테고리의 다른 글

260522_강의 정리 (시계열분석, Statsmodel) (0)	2026.05.27
260521_강의 정리 (시계열 분석) (0)	2026.05.21
260519_강의 정리 (데이터 전처리) (0)	2026.05.20
260518_강의 정리 (Pandas) (0)	2026.05.18
260512_강의 정리 (NumPy) (0)	2026.05.13

'Python' Related Articles

끄적이는 개발노트

260520_강의 정리 (Data Summerization & EDA) 본문

260520_강의 정리 (Data Summerization & EDA)

■ Data summerization & EDA

'Python' 카테고리의 다른 글

티스토리툴바