Boot Camp/section1

[AIB] EDA

minzeros 2021. 9. 27. 15:29

학습 목표

EDA와 pre-processing에 대해서 이해한다.

 

pandas 라이브러리를 사용하여 데이터셋 불러오기

import pandas as pd
df = pd.read_csv(파일명 or '파일경로')

 

EDA (Exploratory Data Analysis, 탐색적 자료 분석)

데이터 분석에 있어서 매우 중요한 초기 분석 단계를 의미하며, 시각화 도구를 통해서 패턴을 발견하거나

데이터의 특이성을 확인하거나 통계와 그래픽(혹은 시각적 표현)을 통해서 가설을 검정하는 과정 등을 포함한다.

 

 

EDA 방법

1. Graphic : 차트 혹은 그림 등을 이용하여 데이터를 확인하는 방법

2. Non-Graphic : 그래픽적인 요소를 사용하지 않는 방법으로, 주로 Summary Statistics를 통해 데이터를 확인하는 방법

 

 

EDA 타켓(데이터)

1. Univariate (단변수)

 Distribution(분포)를 확인하는 것이 주목적

 Numeric data의 경우, summary statistics를 제일 많이 활용하는데 그 종류는 다음과 같다.

  • Center (Mean, Median, Mod)
  • Spread (Variance, SD, IQR, Range)
  • Modality (Peak)
  • Shape (Tail, Skewness, Kurtosis)
  • Outliers 

Categorical data의 경우 occurence, frequency, tabluation등을 사용할 수 있다.

 

 

2. Multi Variate (다변수)

 여러 변수들간의 관계를 보는 것이 주요 목적


Uni - Graphic

 Histogram 혹은 Pie chart, Stem-leaf plot, Boxplot, QQplot 등을 사용한다.

 그러나 만약 값들이 너무 다양하면 Binning, Tabulation등을 활용할 수 도 있다.

 

QQPlot - 데이터의 분포와 이론상 분포가 잘 일치하는가를 확인할 수 있는 방법

 

Multi - Non Graphic

 Relationshiop을 보는 것이 주된 목표이며, Cross-Tabulation, Cross-Statistics(Correlation, Covariance) 등을 사용한다.

 Categorical 데이터는 Cross-Tabulation을 적용할 수 있고, Numerical Feature들의 경우 Cross Statistics를 사용할 수 도 있다.

 

Multi - Graphic

 Category & Numeric : Boxplots, Stacked bar, Parallel Coordinate, Heatmap

 Numeric & Numeric : Scatter plot


Cleaning

 noise를 제거하거나, inconsistency(불일치)를 보정하는 과정을 의미한다.

 값이 빠져있거나, 잘못 입력되거나 혹은 일관성을 가지지 않는 데이터들을 제거/보정 하는 과정들이 포함되어 있다.

 

Missing Values

 1. Ignore the tuple (결측치가 있는 데이터 삭제)

 2. Manual Fill (수동으로 입력)

 3. Global Constant ("Unknown")

 4. Imputation (All mena, Class mean, Inference mean, Regression 등)

 

Noisy data

 Noise란, 큰 방향성에서 벗어난 random error 혹은 variance를 포함하는 데이터를 말하며

 대부분 descriptive statistics 혹은 visualization 등 EDA를 통해 제거가 가능하다.

 

Integration

 여러 개로 나누어져 있는 데이터들을 분석하기 편하게 하나로 합치는 과정을 의미한다. (ex. merge)

 

Transformation

 데이터의 형태를 변환하는 작업으로, scaling이라고 부르기도 한다. (ex. normalize)

 

Reduction

 데이터를 의미있게 줄이는 것을 의미하며, dimension reduction과 유사한 목적을 갖는다. (ex. pca)