[AIB] Bias, Variance, R-Square, Multiple Regression, Evaluation Metrics

Boot Camp/section2

[AIB] Bias, Variance, R-Square, Multiple Regression, Evaluation Metrics

minzeros 2022. 3. 25. 15:37

💡 편향 (Bias)

The inability for a machine learning method (like linear regression) to capture the true relationship.

(실제 데이터를 따라잡지 못하는 정도)

Because the Straight line can't be curved like 'true' relationship.

↔ Squiggly line (구불구불한 선) did a great job fitting the training set, but it did a terrible job fitting the testing set.

(= Overfitting, 과적합)

💡 분산 (Variance)

The difference in fits between data sets. (데이터 세트 간의 적합도 차이)

예측값들과 관측값이 대체로 멀리 떨어져 있으면 결과의 편향이 높다고 말하고,

예측값들이 대체로 멀리 흩어져 있으면 분산이 높다고 말한다.

cf.

Three commonly used method for finding the sweep spot(이상적인 균형) between simple and complicated models are Regularization, Boosting and Bagging.

단순한 모델과 복잡한 모델 사이의 이상적인 균형을 찾는 3가지 방법 = 정규화, 부스팅, 배깅

✨ How to calculate R-Square Using Regression Analysis

(관측치 - 평균) distance 와 (예측치 - 평균) distance 비교하기

→ R square 값이 1에 가까워질수록 관측치와 예측치가 유사하다는 것을 의미한다.

✨ Standard Error of the Estimate

y = 실제 y값

^(y) = 예측한 y값

n = 예측값 개수

💡 회귀모델을 평가하는 평가지표들 (evaluation metrics)

MSE (Mean Squared Error)
MAE (Mean Absolute Error)
RMSE (Root Mean Squared Error)
R-squared

SSE (Sum of Squares Error, 관측치와 예측치 차이)
SSR (Sum of Squares due to Regression, 예측치와 평균 차이)
SST (Sum of Squares Total, 관측치와 평균 차이) = SSE + SSR

# mean_sqaure_error, mean_absolute_error, rmse, r-squared error 확인하기
import pandas as pd
from IPython.display import display
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
rmse = mse ** 0.5
r2 = r2_score(y_test, y_pred)

display(pd.DataFrame([['MSE', mse],['MAE', mae],['RMSE', rmse],['R2', r2]], columns=['Metric', 'Score']))

reference.

https://partrita.github.io/posts/regression-error/

회귀의 오류 지표 알아보기

선형 회귀의 오류 지표를 예시를 통해 알아봅니다

partrita.github.io

데이터를 어떻게 나누어야 할까?

데이터를 무작위로 선택해 나누는 방법이 일반적이지만, 시계열 데이터를 가지고 과거에서 미래를 예측하려고 하는 경우 무작위로 데이터를 섞으면 절대 안된다. 이때는 훈련 데이터보다 테스트 데이터가 미래의 것이어야 한다.

# 데이터를 무작위로 나누는 방법
# 1
train = df.sample(frac=0.75, random_state=1)	# frac : 반환할 항목의 비율
test = df.drop(train.index)

# 2
from sklearn.model_selection import train_test_split
train, test = train_test_split(df, train_size=0.75, random_state=1)

💡 단순선형회귀모델 예제

import pandas as pd
df = pd.read_csv('https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/house-prices/house_prices_train.csv')

# 기준모델 만들기
# 타겟인 SalePrice 의 평균을 기준모델로 사용

# label 정의
target = 'SalePrice'
y_train = train[target]
y_test = test[target]

predict = y_train.mean()
>>> 180327.24200913243

# 기준모델로 훈련 에러 (MAE) 계산
from sklearn.metrics import mean_absolute_error
y_pred = [predict] * len(y_train)
mae = mean_absolute_error(y_train, y_pred)
>>> 57775.57

# GrLivArea (지상생활면적, sqft)와 SalePrice를 사용, scatterplot을 그리고 OLS 라인을 그려보자

import seaborn as sns
sns.regplot(x=train['GrLivArea'], y=train['SalePrice']).set_title('Housing Prices')

cf.

seaborn.regplot()

: scatter plot과 line plot을 함께 볼 수 있는 시각화 방법

from sklearn.linear_model import LinearRegression

model = LinearRegression()

features = ['GrLivArea']
X_train = train[features]
X_test = test[features]

# 모델 fit
model.fit(X_train, y_train)
y_pred = model.predict(X_train)
mae = mean_absolute_error(y_train, y_pred)
print(f'훈련 에러: {mae:.2f}')
>>> 훈련 에러: 38327.78

# 테스트 데이터에 적용
y_pred = model.predict(X_test)
mae = mean_absolute_error(y_test, y_pred)
print(f'테스트 에러: {mae:.2f}')
>>> 테스트 에러: 35476.63

💡 다중선형회귀모델 예제 (특성 2개 이상)

features = ['GrLivArea', 'OverallQual']
target = 'SalePrice'

X_train = train[features]
X_test = test[features]

# 모델 fit
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
mae = mean_absolute_error(y_train, y_pred)
print(f'훈련 에러: {mae:.2f}')
>>> 훈련 에러: 29129.58

# 테스트 데이터에 적용
y_pred = model.predict(X_test)
mae = mean_absolute_error(y_test, y_pred)
print(f'테스트 에러: {mae:.2f}')
>>> 테스트 에러: 27598.31

과적합(Overfitting)과 과소적합(Underfitting)

일반화 (Generalization)

테스트 데이터에서 만들어내는 오차를 일반화 오차라고 부른다.

훈련 데이터에서와 같이 테스트 데이터에서도 좋은 성능을 내는 모델은 일반화가 잘 된 모델이라고 부른다.

모델이 너무 훈련 데이터에 과하게 학습(과적합)을 하지 않도록 하는 많은 일반화 방법들이 있다.

과적합 (Overfitting)

과적합은 모델이 훈련 데이터에만 특수한 성질을 과하게 학습해 일반화를 못해 결국 테스트 데이터에서 오차가 커지는 현상을 말한다.

과소적합 (Underfitting)

과소적합은 훈련 데이터에 과적합도 못하고 일반화 성질도 학습하지 못해, 훈련/테스트 데이터 모두에서 오차가 크게 나오는 경우를 말한다.

분산/편향 트레이드오프

과적합, 과소적합은 오차의 편향(Bias)과 분산(Variance) 개념과 관계가 있다.

분산이 높은 경우는, 모델이 학습 데이터의 노이즈에 민감하게 적합하여 테스트 데이터에서 일반화를 잘 못하는 경우, 즉 과적합 상태이다.

편향이 높은 경우는, 모델이 학습 데이터에서 특성과 타켓 변수의 관계를 잘 파악하지 못해 과소적합 상태이다.

저작자표시