Machine Learning 논문에서 특히 Bayesian Inference를 다루는 논문에서 자주 등장하는 용어 중 하나가 "Closed Form"입니다. 이는 머신러닝이나 통계학에서 중요한 개념 중 하나로, 모델의 특정 수식을 명확하게 해석할 수 있는 형태로 표현할 수 있는지 여부를 나타냅니다. 처음 접했을 때는 단순히 수식적으로 표현하기 어렵다는 의미로 받아들이고 넘어갈 수 있지만, 실제로는 이 개념이 어떤 의미를 갖는지, 그리고 왜 중요한지를 명확히 이해하는 것이 중요합니다. 이번 기회에 이를 보다 구체적으로 살펴보겠습니다.
우선 Closed Form이라는 용어는 수학에서 출발합니다. 이는 특정 방정식이나 수식을 유한한 수의 일반적인 연산자(예: 덧셈, 뺄셈, 곱셈, 나눗셈, 로그, 지수 등)로 명확하게 표현할 수 있는 경우를 의미합니다. 쉽게 말해, 어떤 문제를 풀었을 때 그 해가 하나의 단순한 수식으로 표현될 수 있다면, 우리는 그 해를 Closed Form으로 얻었다고 말합니다. 이와 반대로, 해가 단순한 수식으로 표현되지 않고, 복잡한 수치적 방법이나 반복적 알고리즘을 사용해야만 얻을 수 있다면, 그 해는 Closed Form이 아니라고 할 수 있습니다.
예를 들어, Ridge Regression에서의 Error function은 다음과 같이 정의됩니다:
$ J(\mathbf{w}) = \frac{1}{2n} \sum_{i=1}^{n} \left( y_i - \mathbf{w}^T \mathbf{x}_i \right)^2 + \frac{\lambda}{2} \sum_{j=1}^{p} w_j^2$
이 에러 함수는 모델이 예측한 값과 실제 값의 오차를 최소화하는 벡터 w 를 찾기 위해 사용됩니다. Ridge Regression의 경우, 이 에러 함수를 Closed Form으로 최소화할 수 있습니다. 선형대수를 활용하면 다음과 같은 Closed Form 해를 얻을 수 있습니다:
$
\mathbf{w} = (\mathbf{X}^T \mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^T \mathbf{y}
$
이 수식은 w를 직접 계산할 수 있는 명확한 해를 제공합니다. 즉, Ridge Regression에서 최적의 가중치를 찾기 위해 반복적인 알고리즘(예: Gradient Descent)을 사용할 필요 없이, 위의 수식을 이용해 한 번에 해를 구할 수 있습니다. 이는 계산적으로 매우 효율적이며, 특히 대규모 데이터나 실시간 처리가 필요한 상황에서 큰 장점을 제공합니다.
Closed Form의 개념은 이러한 효율성과 직결됩니다. 복잡한 최적화 문제를 다룰 때, Closed Form 해가 존재한다면, 이는 문제를 푸는 데 필요한 연산량을 크게 줄여줄 수 있습니다. 예를 들어, Gradient Descent와 같은 반복적 최적화 알고리즘은 초기 값에 따라 수렴 속도가 달라질 수 있으며, 지역 최소값에 빠질 가능성도 있습니다. 그러나 Closed Form 해가 존재하면 이러한 위험을 피하고, 전역 최적해를 직접 계산할 수 있습니다.
그러나 앞서 언급했듯이 모든 경우에 Closed Form 해를 구할 수 있지는 않습니다. 예를 들어, 비선형 모델이나 복잡한 데이터 분포를 다룰 때는 Closed Form 해를 구하는 것이 불가능하거나 매우 어렵습니다. 이 경우, 반복적 최적화 알고리즘이 필요하게 됩니다. Bayesian Inference에서도 마찬가지입니다. Closed Form으로 표현하기 어려운 경우, 근사 기법이나 샘플링 기법을 통해 문제를 해결하게 됩니다.
결론적으로, Closed Form 해를 구할 수 있다는 것은 수식적으로 명확한 해를 제공함으로써 계산 효율성을 극대화하고, 최적화 문제를 보다 쉽게 해결할 수 있게 합니다.