과대적합과 정규화

Notice

Fortress Craft 출시!

Recent Posts

Recent Comments

Link

깃허브

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

Replicated

과대적합과 정규화 본문

빅데이터마이닝

과대적합과 정규화

라구넹 2025. 4. 11. 22:10

편향(bias) : 학습된 모델이 학습 데이터에 대해 만들어 낸 예측값과 실제값과의 차이

- 모델의 결과가 얼마나 한쪽으로 쏠려 있는지를 나타냄

분산(variance) : 모델이 학습 데이터에 민감하게 반응하는 정도. 훈련 데이터가 조금만 달라져도 모델이 얼마나 다른 예측을 하는지를 나타냄

- 모델의 결과가 얼마나 퍼져 있는지를 나타냄

편향-분산 트레이드오프

좌측 상: 높은 편향, 낮은 분산

- under-fitting된 모델

- 단순한 모델일수록 학습 데이터에서 모든 패턴을 찾지 못해 Bias크고 Variance 작음

좌측 하: 낮은 편향, 낮은 분산

- 에러율 가장 낮음

우측 상: 높은 편향, 높은 분산

- 에러율 가장 큼

우측 하: 낮은 편향, 높은 분산

- over-fitting된 모델

- 학습 데이터 셋이 잘 학습되었지만 데이터의 노이즈도 같이 학습.. 일반화 안됨

- 복잡한 모델일수록 Bias 낮고 Variance 큼

모델이 단순할수록 Bias 커짐

모델이 복잡할수록 Varaiance 커짐

트레이드오프 생각해야 함

과대적합이 발생할 때, 경사하강법 루프가 진행될수록 학습 데이터셋에 대한 비용함수는 감소

그러나, 테스트 데이터셋의 비용함수 값은 증가.

선형회귀에서 과대적합 해결책

- 더 많은 데이터 활용 (분포가 다양한 데이터를 많이 확보)

- 모델의 학습 파라미터 (가중치) 수 줄이기

- 피쳐의 개수 줄이기 (필요한 피쳐만 잘 찾아 사용)

- 정규화 적용하기 (데이터 편향성에 따라 필요 이상으로 증가한 가중치 값을 적절히 줄이는 규제 수식을 추가)

L2 정규화 (리지 회귀, ridge regression)

- 놈(norm) : 좌표평면의 원점에서 점까지의 거리를 나타내어 벡터의 크기를 측정하는 기법

- x는 하나의 벡터

- L2놈: 벡터 각 원소들의 제곱합에 제곱근을 취함

- 리지 회귀는 L2놈을 선형회귀의 비용함수 수식에 적용.. 코스트 펑션에 조항을 붙이는 것

첫번째 항은 일반적인 MSE, 뒤는 페널티 텀(penalty term), 모델의 가중치 값들의 제곱의 합

- 일단 J를 최소화시키는게 목적이니, 가중치가 조금이라도 커지면 비용함수에 매우 큰 영향을 줌

- λ가 클수록 페널티텀의 값이 커져 θ값이 조절됨

- λ는 하이퍼 매개변수

L1 정규화 (라쏘 회쉬, lasso regression)

- L1 놈: 절대값을 사용하여 거리를 측정

- 가중치에 L1 놈 페널티를 추가하여 계산

타원: 두 개의 가중치 값에 대한 비용함수의 공통 범위

(타원의)중앙: 정규화 텀을 제외한 비용함수가 최소인 점

마름모, 원: 가중치가 가질 수 있는 범위, 타원과 만나는 점이 구하는 값

- 람다에 따라 마름모, 원의 크기 변경

L1 정규화는 직선과 타원이 만나는 점이 양쪽 끝에 생성

- 극단적인 값 생성, 다른 가중치 값이 선택되지 않는 현상 발생 가능

- 사용해야 하는 피쳐와 사용하지 않아도 되는 피쳐를 선택하여 사용하도록 지원

L2 정규화는 원과 타원이 만나는 점

- 모든 피쳐가 기여하는 경우 우수

- 피쳐 간 상관관계가 있을 경우 이점

저작자표시 (새창열림)

'빅데이터마이닝' 카테고리의 다른 글

분류 문제의 성능 지표 (0)	2025.04.12
로지스틱 회귀 (0)	2025.04.11
경사하강법 실습 (0)	2025.04.08
경사하강법의 종류 (0)	2025.04.07
경사하강법 선형회귀 (0)	2025.04.07

'빅데이터마이닝' Related Articles

Replicated

과대적합과 정규화 본문

과대적합과 정규화

'빅데이터마이닝' 카테고리의 다른 글

티스토리툴바