끄적이는 개발노트

260520_강의 정리 (Data Summerization & EDA) 본문

Python

260520_강의 정리 (Data Summerization & EDA)

크런키스틱 2026. 5. 20. 18:32
728x90

■ Data summerization & EDA

  • 데이터 분석
    • 요약/집계 분석 (Descriptive)
      • 현재 데이터의 특성을 수치와 통계로 요약
      • 평균, 분포 등 기초 통계 활용
    • 탐색적 분석 (EDA, Exploratory)
      • 데이터 패턴·이상치·관계를 시각화로 탐색
      • 가설 없이 데이터 자체를 이해
    • 추론 분석 (Inferential)
      • 표본에서 모집단을 추론
      • 가설 검정, 신뢰구간, p-value 등이 핵심 도구
    • 예측 분석 (Predictive)
      • 과거 데이터로 미래를 예측
      • 회귀, 분류 등 머신러닝 모델 활용
    • 인과관계 분석 (Causal)
      • 변수 간 인과를 규명
      • 상관관계와 구분되면 A/B 테스트, DoE 방법 사용

          → 기술통계 → EDA → 추론 → 예측 → 인과 순으로 진행

 

  • 데이터 요약 5가지 기술
    • 기술적 통계 (Descriptive Statistics)
      • 평균, 중앙값, 표준편차로 데이터의 전체 분포를 수치화
    • 시각화 (Visualization)
      • 분포, 추세, 비교, 변화를 그래프로 표현
      • EDA의 핵심 수단
    • 관계 분석 (Relationship Analysis)
      • 상관계수, 산점도로 변수 간 관계 파악
    • 데이터 집계 (Data Aggregation)
      • groupby, pivot_table로 범주별 요약 통계 산출
    • 차원 감소 (Dimensionality Reduction)
      • PCA, t-SNE 등으로 고차원 데이터를 저차원으로 압축해 패턴 파악
      • 주로 Scikit-learn과 함께 사용
  • Pandas 집계 함수
    • 통계적 집계
      • mean() : 평균
      • median() : 중앙값
      • describe() : 기초통계 요약
    • 위치 지표
      • quantile(q) : 분위수
      • iqr() : 사분위범위
    • 산포 지표
      • std() : 표준편차
      • var() : 분산
      • skew() : 왜도
      • kurt() : 첨도
    • 범위
      • max() - min() : Range(범위)
    • 변동성 지표
      • diff() : 전기 대비 차이
      • pct_change() : 모멘텀
  • 핵심 요약 도구 (Pandas)
    • value_counts()
      • 도수분포
      • 범주형 열의 빈도수 집계
    • groupby()
      • 하나 이상의 기준으로 그룹화 후 집계
      • 멀티인덱스 지원
    • pd.crosstab()
      • 행·열 모두 범주형일 때 빈도 교차표 생성
      • 카이제곱 검정 전처리에 유용
    • df.pivot()
      • index, columns, values 세 축으로 데이터를 재구조화
      • 중복값 없어야 함
    • pivot_table()
      • pivot + aggfunc 조합
      • 중복 허용, 집계함수 지정 가능
  • Long vs Wide 형식
    • Wide 형식 (넓은 형식)
      • 한 행에 여러 변수가 열로 나열
      • 사람이 읽기 편한 표 형태
      • Excel 스프레드시트와 유사
    • Long 형식 (긴 형식)
      • 각 관측값이 한 행으로 기록
      • Pandas, ggplot 분석에 적합
      • groupby, pivot에서 출발점
    • pd.melt : Wide → Long 변환
    • df.pivot() : Long → Wide 변환
  • EDA 전체 분석 흐름
    • 핵심 파이프라인
      • 범주화 → 데이터 요약 → 시각화
    • 분석 흐름
      • 데이터 → 정보 → 패턴 → 해석 → 의사결정
        • df.shape, df.info() : 구조 파악
        • df.describe() : 기초통계 확인
        • df.isnull().sum() : 결측값 확인
        • value_counts() : 범주형 분포
        • 히스토그램·박스플롯 : 수치형 분포
        • 상관관계 히트맵 : 변수 간 관계 파악
728x90