Replicated

선형회귀 성능 측정 본문

카테고리 없음

선형회귀 성능 측정

라구넹 2025. 4. 7. 22:14

훈련/테스트 분할 (train/text split)

- 머신러닝에서 데이터 학습을 하기 위한 학습 데이터 셋(train dataset)과 학습의 결과로 생성된 모델의 성능을 평가하기 위한 테스트 데이터셋(test dataset)으로 나눔

- 모델이 새로운 데이터셋에도 일반화하여 처리 가능한지 확인

- from sklearn.model_selection import train_test_split, train_test_split( X, y, test_size=0.33, random_state=42)

 

과다적합(over-fit)

- 생성된 모델이 특정 데이터에만 잘 맞아 새로운 데이터에 성능이 안나옴

과소적합(under-fit)

- 기존 학습 데이터를 제대로 예측하지 못함

 

홀드아웃 메서드(hold-out method)

- 전체 데이터셋에서 일부를 학습 데이터와 테스트 데이터로 나누는 데이터 분할 기법

- 랜덤하게 분할

- 일반적으로 7:3, 8:2 비율

 

선형 회귀의 성능 측정 지표

MAE(MEAN Absolute Error)

- 평균 절대 잔차

- 모든 예측값과 실제값의 차이에 절댓값구하고 더해서 평균냄

- 직관적

- from sklearn.metrics import median_absolute_error, median_absolute_error(y_true, y_pred)

 

RMSE(Root Mean Squared Error)

- 평균 제곱근 오차

- 오차 제곱해서 다 더하고 평균내고 제곱근

- 차이가 크게 나느 값에 대하여 페널티를 주고 싶다면 사용

- sklearn에서 직접적으로 제공은 안하고, mean_squared_error만 제공함