[AIB] OLS, MAE, RSS, Simple Regression

Notice

Recent Posts

Recent Comments

Today

Total

관리 메뉴

Codelog

[AIB] OLS, MAE, RSS, Simple Regression 본문

Boot Camp/section2

[AIB] OLS, MAE, RSS, Simple Regression

minzeros 2022. 1. 7. 18:46

💡 지도학습 (Supervised Learning) : Comparing Classification & Regression

Purpose

Supervised Classification → Is this A or B?
Regression → How much / How many?

output type

Supervised Classification → discrete output (class or label 형식)
Regression → continuous output (number 형식)

what are you trying to find

Supervised Classification → decision boundary
Regression → best fit line

evalution

Supervised Classification → accuracy
Regression → sum of squared error or r squared

💡 기준모델 (Baseline Model)

예측 모델을 구체적으로 만들기 전에 가장 간단하면서 직관적인, 최소한의 성능을 나타내는 모델을 기준모델 이라 한다.

기준모델을 문제별로 다르게 설정한다.

분류문제 : 타겟의 최빈 클래스
회귀문제 : 타겟의 평균값
시계열회귀문제 : 이전 타임스탬프의 값

💡 최소제곱법, 최소자승법 (Least Square Method, Ordinary Least Squares)

어떤 계의 해방정식을 근사적으로 구하는 방법으로, 근사적으로 구하려는 해와 실제 해의 오차의 제곱의 합이 최소가 되는 해를 구하는 방법이다.

(x,y) 데이터 집합으로 선형회귀모델(Linear Regression) 계산하는 방법

💡 평균절대오차 (mean absolute error, MAE)

에러값에 절대값을 취한 후 평균을 낸 값

mae는 다른 오차계산법과는 다르게 에러값과 실제 타겟 데이터의 값의 단위가 같아서 쉽게 비교할 수 있다.

# df : 주택 판매 가격을 예측하는데 사용되는 데이터

# 회귀문제의 기준모델
predict = df['SalePrice'].mean()

# 에러값 계산
errors = df['SalePrice'] - predict

# mae 계산
mae = errors.abs().mean()

✨ 회귀모델의 예측모델 활용

회귀문제 데이터의 scatterplot에 가장 잘 맞는 직선(best fit)을 그려주면 그것이 회귀예측모델이 된다.

회귀분석에서 중요한 개념은 예측값과 잔차(residual)이다. 예측값은 만들어진 모델이 추정하는 값이고,

잔차는 예측값과 관측값의 차이이다. (오차는 모집단에서의 예측값과 관측값의 차이를 말함.)

회귀직선은 잔차 제곱들의 합인 RSS(Residual Sum of Squares)를 최소화하는 직선이다.

RSS는 SSE(Sum of Square Error)라고도 말하며, 이 값이 회귀모델의 비용함수(Cost function)가 된다.

머신러닝에서는 이렇게 비용함수를 최소화하는 모델을 찾는 과정을 '학습'이라고 한다.

여기서 계수 α와 β는 RSS를 최소화하는 값으로 모델 학습을 통하여 얻어지는 값이다.

즉 RSS를 최소화 시킬 수 있는 α와 β 값을 찾아야 한다.

이렇게 잔차제곱합(RSS)을 최소화하는 방법을 최소제곱회귀 혹은 Ordinary Least Squares(OLS) 라고 부른다.

선형회귀는 주어져 있지 않은 값의 함수값(결과값)을 내삽(보간, interpolate)하여 예측하는데 도움을 준다.

따라서 데이터의 중간중간 비어서 존재하지 않는 값에 대해서도 선형회귀모델을 사용해 어림잡아 예측해 볼 수 있다.

또한 선형회귀모델은 기존 데이터의 범위를 넘어서는 값을 예측하기 위한 외삽(extrapolate)도 제공해준다.

💡 Simple Linear Regression (단순 선형 회귀) 예제

# 주택의 가격을 예측하는 모델 생성 (주택 정보 데이터셋 = df)

from sklearn.linear_model import LinearRegression

model = LinearRegression()

feature = ['GrLivArea']
target = ['SalePrice']
X_train = df[feature]
y_train = df[target]

# 모델 학습
model.fit(X_train, y_train)

# 새로운 데이터 샘플을 선택해 학습한 모델을 통해 예측
X_test = [[4000]]
y_pred = model.predict(X_test)

print(f'{X_test[0][0]} sqft GrLivArea를 가지는 주택의 예상 가격은 ${int(y_pred)} 입니다.')

Output : 4000 sqft GrLivArea를 가지는 주택의 예상 가격은 $447090 입니다.

# 전체 테스트 데이터를 학습시킨 모델을 통해 예측 (주택 정보 테스트 데이터셋 = df_t)
X_test = [[x] for x in df_t['GrLivArea']
y_pred = model.predict(X_test)

선형회귀모델의 계수(Coefficients)

Coefficient (회귀계수) : 회귀직선의 기울기 (α)

Intercept (절편) : 회귀직선의 y 절편 (β)

sklearn 라이브러리의 LinearRegression 객체의 coef_, intercept_ 속성을 통해서 값을 구할 수 있다.

model.coef_	# array([[107.13035897]])
model.intercept_	# array([18569.02585649])

cf.

LinearRegression 모듈 → 최소자승법 (OLS) 사용

SGD Regressor 모듈 → 경사하강법 사용

저작자표시

'Boot Camp > section2' 카테고리의 다른 글

[AIB] Logistic Regression (0)	2022.03.30
[AIB] One Hot Encoding, Feature Selection, Ridge Regression (0)	2022.03.30
[AIB] Bias, Variance, R-Square, Multiple Regression, Evaluation Metrics (0)	2022.03.25

'Boot Camp/section2' Related Articles

Codelog

[AIB] OLS, MAE, RSS, Simple Regression 본문

[AIB] OLS, MAE, RSS, Simple Regression

💡 지도학습 (Supervised Learning) : Comparing Classification & Regression

💡 기준모델 (Baseline Model)

💡 최소제곱법, 최소자승법 (Least Square Method, Ordinary Least Squares)

💡 평균절대오차 (mean absolute error, MAE)

✨ 회귀모델의 예측모델 활용

💡 Simple Linear Regression (단순 선형 회귀) 예제

'Boot Camp > section2' 카테고리의 다른 글

티스토리툴바