Replicated

선형 회귀, MSE 본문

빅데이터마이닝

선형 회귀, MSE

라구넹 2025. 4. 7. 13:56

선형회귀(Linear Regression)

- 종속변수 y와 한 개 이상의 독립 변수 x와의 선형 상관관계를 모델링하는 회귀분석 기법

- 기존 데이터를 활용해 연속형 변수값을 예측

- y = ax + b 꼴의 수식 만들고 a와 b의 값을 찾아냄

 

어떻게 되어야 기존 데이터를 잘 표현하는가?

- 예측값이 실제값 대비 차이가 많이 나지 않는 그래프

 

예측 함수와 실제값 간 차이

- 예측 함수는 예측값과 실제값 간의 차이를 최소화하는 방향..

- 데이터 n개 중 i번째 데이터의 y값에 대한 실제값과 예측값의 차이

- 데이터가 5개 있을 때 5개 데이터의 오차의 합

ŷⁱ − yⁱ

 

(ŷ^(1) − y^(1)) + (ŷ^(2) − y^(2)) + (ŷ^(3) − y^(3)) + (ŷ^(4) − y^(4)) + (ŷ^(5) − y^(5))

그런데 이러면 오차가 음수, 양수로 나와서 서로 상쇄될 수 있음

=> 오차에 제곱하여 합하기

 

이걸 이제 행렬로 표현하고 계산?

이런식으로 표기 가능하고

 

오차를 제곱하면 이렇게 표기 가능

 

제곱 오차(Square Error) : (ŷ - y)^2로 예측값과 실제값의 제곱을 표시하여 오차를 나타냄

 

ŷ = ax + b이니.. a = w1, b = w0

저 제곱 오차를 최소화시키는 w0와 w1을 찾아야 함

 


 

선형 회귀의 기초 수식

 

가설 함수(hypothesis function) : 예측값을 예측하는 함수

- 함수 입력값은 x

- 함수에서 결정할 것은 세타 == 가중치 값 Wn

 

 

비용 함수(cost function) : 머신러닝에서 최소화해야 할 예측값과 실제값의 차이

- 잔차 제곱합(Error Sum of Squares) : 예측값인 가설함수와 실제값인 y 간 차이를 제곱해서 합함

- == 손실함수

- 평균 제곱 오차(Mean Squared Error, MSE) : 잔차의 제곱합을 2m으로 나눈값

-- 2m인 이유는 미분이 들어가는데 편하게 하려고 2 붙인 거

 

 

일단 지금 세타를 찾아야 함

arg min 세타는 뒤의 식을 최소화시키는 세타를 찾는다는 것

=> MSE 최소화 시키는 세타를 찾는다!

 

'빅데이터마이닝' 카테고리의 다른 글

경사하강법 실습  (0) 2025.04.08
경사하강법의 종류  (0) 2025.04.07
경사하강법 선형회귀  (0) 2025.04.07
최소자승법 선형회귀 - 수식 유도, 장단점  (0) 2025.04.07
빅데이터마이닝의 개념  (0) 2025.03.19