Replicated

과대적합과 정규화 본문

빅데이터마이닝

과대적합과 정규화

라구넹 2025. 4. 11. 22:10

편향(bias) : 학습된 모델이 학습 데이터에 대해 만들어 낸 예측값과 실제값과의 차이

- 모델의 결과가 얼마나 한쪽으로 쏠려 있는지를 나타냄

 

분산(variance) : 모델이 학습 데이터에 민감하게 반응하는 정도. 훈련 데이터가 조금만 달라져도 모델이 얼마나 다른 예측을 하는지를 나타냄

- 모델의 결과가 얼마나 퍼져 있는지를 나타냄

 

편향-분산 트레이드오프

 

좌측 상: 높은 편향, 낮은 분산

- under-fitting된 모델

- 단순한 모델일수록 학습 데이터에서 모든 패턴을 찾지 못해 Bias크고 Variance 작음

좌측 하: 낮은 편향, 낮은 분산

- 에러율 가장 낮음

우측 상: 높은 편향, 높은 분산

- 에러율 가장 큼

우측 하: 낮은 편향, 높은 분산

- over-fitting된 모델

- 학습 데이터 셋이 잘 학습되었지만 데이터의 노이즈도 같이 학습.. 일반화 안됨

- 복잡한 모델일수록 Bias 낮고 Variance 큼

 

모델이 단순할수록 Bias 커짐

모델이 복잡할수록 Varaiance 커짐

트레이드오프 생각해야 함

 

과대적합이 발생할 때, 경사하강법 루프가 진행될수록 학습 데이터셋에 대한 비용함수는 감소

그러나, 테스트 데이터셋의 비용함수 값은 증가.

 

 

선형회귀에서 과대적합 해결책

- 더 많은 데이터 활용 (분포가 다양한 데이터를 많이 확보)

- 모델의 학습 파라미터 (가중치) 수 줄이

- 피쳐의 개수 줄이기 (필요한 피쳐만 잘 찾아 사용)

- 정규화 적용하기 (데이터 편향성에 따라 필요 이상으로 증가한 가중치 값을 적절히 줄이는 규제 수식을 추가)

 

 

L2 정규화 (리지 회귀, ridge regression)

- 놈(norm) : 좌표평면의 원점에서 점까지의 거리를 나타내어 벡터의 크기를 측정하는 기법

- x는 하나의 벡터

- L2놈: 벡터 각 원소들의 제곱합에 제곱근을 취함

- 리지 회귀는 L2놈을 선형회귀의 비용함수 수식에 적용.. 코스트 펑션에 조항을 붙이는 것

 

첫번째 항은 일반적인 MSE, 뒤는 페널티 텀(penalty term), 모델의 가중치 값들의 제곱의 합

- 일단 J를 최소화시키는게 목적이니, 가중치가 조금이라도 커지면 비용함수에 매우 큰 영향을 줌

- λ가 클수록 페널티텀의 값이 커져 θ값이 조절됨

- λ는 하이퍼 매개변수

 

 

L1 정규화 (라쏘 회쉬, lasso regression)

- L1 놈: 절대값을 사용하여 거리를 측정

- 가중치에 L1 놈 페널티를 추가하여 계산

 

좌측 L1, 우측 L2

타원: 두 개의 가중치 값에 대한 비용함수의 공통 범위

(타원의)중앙: 정규화 텀을 제외한 비용함수가 최소인 점

마름모, 원: 가중치가 가질 수 있는 범위, 타원과 만나는 점이 구하는 값

- 람다에 따라 마름모, 원의 크기 변경

 

L1 정규화는 직선과 타원이 만나는 점이 양쪽 끝에 생성

- 극단적인 값 생성, 다른 가중치 값이 선택되지 않는 현상 발생 가능

- 사용해야 하는 피쳐와 사용하지 않아도 되는 피쳐를 선택하여 사용하도록 지원

 

L2 정규화는 원과 타원이 만나는 점

- 모든 피쳐가 기여하는 경우 우수

- 피쳐 간 상관관계가 있을 경우 이점

'빅데이터마이닝' 카테고리의 다른 글

분류 문제의 성능 지표  (0) 2025.04.12
로지스틱 회귀  (0) 2025.04.11
경사하강법 실습  (0) 2025.04.08
경사하강법의 종류  (0) 2025.04.07
경사하강법 선형회귀  (0) 2025.04.07