본문 바로가기

AI/이론

[ML] 오차(error)와 잔차(residual)의 차이

만약 모집단에서 회귀식을 얻었다면, 그 회귀식을 통해 얻은 예측값과 실제 관측값의 차이가 오차이다.

반면 표본집단에서 회귀식을 얻었다면, 그 회귀식을 통해 얻은 예측값과 실제 관측값의 차이가 잔차이다. 

 

둘의 차이는 모집단에서 얻은 것이냐 표본집단에서 얻은 것이냐 뿐이다. 

 

사실상 우리는 대부분 표본집단에서 회귀식을 얻기 때문에, 잔차를 가지고 회귀식의 최적의 파라미터 값들을 추정한다. 즉, 잔차들의 제곱들을 더한 것(잔차제곱합)을 최소로 만들어주는 파라미터를 찾는 것이다. 이것이 바로 최소제곱법(least squares method)이다. 최소제곱법은 최소자승법과 동의어다.

 

▶ 최소자승법(least square method)이란?

 

이제 투영이라는 개념과 최소자승법과 어떻게 연관되어 있는지 알아볼 시간이다. 아래와 같이 미지수는 하나 뿐인데 여러 개의 방정식이 있는 경우를 생각해보자.

 

 

첫번째 방정식을 풀면 x=2가 되는데 이것을 두번째, 세번째 식들에 대입하면 성립이 되지가 않는다. 두번째 방정식을 풀면 x = 5/3이 되는데 이것을 첫번째, 세번째 식들에 대입하면 역시 성립되지 않는다. 세번째 방정식의 해도 마찬가지다. 결국 이 방정식들은 풀 수 없다. 그런데 실생활에는 이러한 경우가 상당히 많다. 이럴 때는 완벽한 답을 구할 수 없어도 최선의 답을 구하기 위해 노력해야한다. 모든 사람을 만족시킬 수는 없지만 최대한 많은 사람들을 만족시키기 위해서 타협하는 것과 같은 이치다. 그 최선의 해를 

라고 표기한다. 그러면 

를 어떻게 구할까? 우선 각 방정식에서의 에러의 제곱을 다 더한다: 

 

.

 

그 다음에 이것이 최소가 되게 하는 x값을 구한다. 그것이 바로 최적해 

이 되는 것이다. 만약 모든 방정식이 완벽하게 풀리는 해가 있다면 

은 0이 될 것이다. 하지만 아까도 말했지만 실생활에서 그런 경우는 극히 드물다. 

가 최소가 되게 하는 x 값, 즉 최적해

를 구해보자. 간단히 x에 대해 미분한 후 0이 되게하는 x값을 찾으면 된다.

 

 

 

즉, x가 2.0345라면 정확하지는 않지만 세 개의 방정식을 최선으로 풀어낸다는 것이다. 한번 확인해보자. 

 

 

4, 5, 9와는 차이가 있긴 하지만 그래도 엄청 큰 차이가 나지는 않는다. 이것이 바로 최소자승법이다. 

 

 

 

[선형대수학] 투영(projection)과 최소자승법(least square method)

매번 느끼는 것이지만 포스팅하지 않고 대충 공부하며 넘어간 부분은 내 머리 속에 잘 정립되어 있지 않은 것 같다. 오늘은 투영과 최소자승법에 대해서 확실하게 이해해보자. 투영은 머신��

bskyvision.com

 

'AI > 이론' 카테고리의 다른 글

ImageNet  (0) 2020.12.28
[CNN] Batch Normalization  (0) 2020.08.18
[ML] ResNet 2  (0) 2020.08.18
[ML] ResNet 1  (0) 2020.07.30
Quantization  (0) 2020.06.23