Replicated

머신 러닝 개념 본문

학부/딥러닝

머신 러닝 개념

라구넹 2025. 10. 12. 18:31

머신 러닝

- 과거의 경험미래의 결정(예측)에 활용하는 소프트웨어를 디자인하고 연구하는 분야

- 컴퓨터가 명시적으로 프로그래밍되지 않고도 학습할 수 있도록 하는 연구분야

- 과거 데이터로부터 숨겨진 규칙을 찾아내어 일반화, 이를 미래의 예측의 활용

 

전통적 SW 개발

- 규칙을 인간이 알아내어 알고리즘의 형태로 SW 안에 구현

 

머신러닝

- 규칙을 알아내는 방법은 인간이 제시

- 실제 규칙을 알아내는 과정은 머신이 진행

- 머신이 규칙을 알아내는 과정이 학습 (인간 입장에선 머신을 훈련시키는 과정)

 

머신러닝 방법

1. 과거 데이터를 수집, 정리

2. 학습(훈련) 방법 결정 (regression, decision tree, deep neural network ..)

3. 학습(훈련) 진행

4. 예측 모델 도출

5. 활용

 

학습의 주체가 사람이 아님

 

러닝?

데이터

- 반응변수(종속변수, response variable)

- 설명변수(독립변수, explanatory variable)

 

반응 변수(y)와 설명 변수(X) 간의 관계를 찾는 것 -> 훈련(training)

f(x)=y 에서 f(), 예측 모델을 알아내고자 함

 

머신 러닝의 분류

지도 학습 (supervised learning /   설명변수, 반응변수 존재)

- 회귀(regression) : y가 수치형

- 분류(classification) : y가 범주형

 

비지도 학습 (unsupervised learning /    설명변수만 존재)

- 군집화 (clustering)

 

강화학습 (Reinforcement learning)

 

* 딥러닝은 지도학습에 해당

 

Reinforcement learning

- 행동 심리학에서 영감, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법

 


 

예측 모델 개발 과정

 

Taining Data

- 과거 데이터의 역할

 

Vaildation Data

- 학습(훈련) 과정에서 만들어지는 모델을 평가하는데 사용

- 더 나은 모델을 만드는데 기여

- 학습 방법에 따라 필요치 않은 경우도 있음

 

Test Data

- 미래 데이터의 역할

- 학습에 사용하지 않은 일부 데티터를 미래의 데이터로 간주

- 미래 예측 시 모델이 어느 정도의 성능을 보일지를 판단하는 자료

 

* Train: 50~75%, Test: 10~30%, validation: 나머지

 

Training accuracy

- 모델이 과거의 데이터를 얼마나 잘 설명할 수 있는지

 

Test accuracy

- 모델이 미래의 데이터를 얼마나 잘 예측할 수 있는지

 

일반적으로 Training accuracy > Test accuracy