일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- local prediction
- animation
- map design
- 언리얼엔진
- CTF
- os
- 게임 개발
- Unreal Engine
- MAC
- Replication
- nanite
- unity
- attribute
- dirty cow
- ability task
- gameplay effect
- 유니티
- gravity direction
- UI
- gas
- gameplay ability system
- 게임개발
- 언리얼 엔진
- gameplay tag
- photon fusion2
- stride
- listen server
- Aegis
- Multiplay
- rpc
- Today
- Total
Replicated
과대적합과 정규화 본문
편향(bias) : 학습된 모델이 학습 데이터에 대해 만들어 낸 예측값과 실제값과의 차이
- 모델의 결과가 얼마나 한쪽으로 쏠려 있는지를 나타냄
분산(variance) : 모델이 학습 데이터에 민감하게 반응하는 정도. 훈련 데이터가 조금만 달라져도 모델이 얼마나 다른 예측을 하는지를 나타냄
- 모델의 결과가 얼마나 퍼져 있는지를 나타냄
편향-분산 트레이드오프
좌측 상: 높은 편향, 낮은 분산
- under-fitting된 모델
- 단순한 모델일수록 학습 데이터에서 모든 패턴을 찾지 못해 Bias크고 Variance 작음
좌측 하: 낮은 편향, 낮은 분산
- 에러율 가장 낮음
우측 상: 높은 편향, 높은 분산
- 에러율 가장 큼
우측 하: 낮은 편향, 높은 분산
- over-fitting된 모델
- 학습 데이터 셋이 잘 학습되었지만 데이터의 노이즈도 같이 학습.. 일반화 안됨
- 복잡한 모델일수록 Bias 낮고 Variance 큼
모델이 단순할수록 Bias 커짐
모델이 복잡할수록 Varaiance 커짐
트레이드오프 생각해야 함
과대적합이 발생할 때, 경사하강법 루프가 진행될수록 학습 데이터셋에 대한 비용함수는 감소
그러나, 테스트 데이터셋의 비용함수 값은 증가.
선형회귀에서 과대적합 해결책
- 더 많은 데이터 활용 (분포가 다양한 데이터를 많이 확보)
- 모델의 학습 파라미터 (가중치) 수 줄이기
- 피쳐의 개수 줄이기 (필요한 피쳐만 잘 찾아 사용)
- 정규화 적용하기 (데이터 편향성에 따라 필요 이상으로 증가한 가중치 값을 적절히 줄이는 규제 수식을 추가)
L2 정규화 (리지 회귀, ridge regression)
- 놈(norm) : 좌표평면의 원점에서 점까지의 거리를 나타내어 벡터의 크기를 측정하는 기법
- x는 하나의 벡터
- L2놈: 벡터 각 원소들의 제곱합에 제곱근을 취함
- 리지 회귀는 L2놈을 선형회귀의 비용함수 수식에 적용.. 코스트 펑션에 조항을 붙이는 것
첫번째 항은 일반적인 MSE, 뒤는 페널티 텀(penalty term), 모델의 가중치 값들의 제곱의 합
- 일단 J를 최소화시키는게 목적이니, 가중치가 조금이라도 커지면 비용함수에 매우 큰 영향을 줌
- λ가 클수록 페널티텀의 값이 커져 θ값이 조절됨
- λ는 하이퍼 매개변수
L1 정규화 (라쏘 회쉬, lasso regression)
- L1 놈: 절대값을 사용하여 거리를 측정
- 가중치에 L1 놈 페널티를 추가하여 계산
타원: 두 개의 가중치 값에 대한 비용함수의 공통 범위
(타원의)중앙: 정규화 텀을 제외한 비용함수가 최소인 점
마름모, 원: 가중치가 가질 수 있는 범위, 타원과 만나는 점이 구하는 값
- 람다에 따라 마름모, 원의 크기 변경
L1 정규화는 직선과 타원이 만나는 점이 양쪽 끝에 생성
- 극단적인 값 생성, 다른 가중치 값이 선택되지 않는 현상 발생 가능
- 사용해야 하는 피쳐와 사용하지 않아도 되는 피쳐를 선택하여 사용하도록 지원
L2 정규화는 원과 타원이 만나는 점
- 모든 피쳐가 기여하는 경우 우수
- 피쳐 간 상관관계가 있을 경우 이점
'빅데이터마이닝' 카테고리의 다른 글
분류 문제의 성능 지표 (0) | 2025.04.12 |
---|---|
로지스틱 회귀 (0) | 2025.04.11 |
경사하강법 실습 (0) | 2025.04.08 |
경사하강법의 종류 (0) | 2025.04.07 |
경사하강법 선형회귀 (0) | 2025.04.07 |