통계학 뿐만 아니라 경제학, 공학, 의학 등 다양한 분야에서 시계열(Time Series) 자료가 생성된다.
또한 각 분야에 맞는 시계열 분석 기법이 나날이 발전해오고 있다.
이 중 내가 특히 관심을 갖는 분야는 금융 분야이다.
금융 분야에서 시계열은 다양한 도구로 사용되지만, 특히 위험 관리의 측도가 되는 Value at Risk(VaR) 측정에 매우 중요하게 사용된다.
이번 카테고리에서는 시계열의 수학적 정의와 성질부터 시작해서 VaR을 측정하는 방법까지 알아보려고 한다.
우선 단일(univariate) 시계열에 대한 내용을 전개하고, 이후 다중(multivariate) 시계열에 관한 내용을 살펴볼 예정이다.
이번 포스트에서는 시계열의 정의와 정상성(Stationarity)의 개념을 살펴보고자 한다.
우선 시계열의 정의는 다음과 같다.
Def 1.1 시간 \( t \)에 대해 같은 확률 변수에서 \(T\)번 반복해 관찰 된 값들의 집합을 \(T\)개의 관측치가 있는 시계열 \(x_t \)라고 하고 \( \{ x_t \}_{t=1}^T \)라고 쓴다. |
결국 시계열이란 일정한 간격의 시간마다 관찰된 값들로 이루어진 수열이라고 생각할 수 있다.
시계열 분석의 기본은 바로 '정상성'에 대한 가정이다.
정상성은 다시 강정상성과 약정상성으로 나뉘는데, 강정상성은 일반적으로 확인하기 어려운 매우 강한 조건이다.
따라서 앞으로 언급할 정상성은 약정상성을 가리키는 것으로 한다.
정상성의 정의는 다음과 같다.
Def 1.2 시계열 \( x_t \)가 모든 \(t\)에 대해 (a) \(E(x_t) = \mu \) 이고 (b) \( Cov(x_t , x_{t-k} ) = \gamma_k \) 이면 시계열 \( x_t \)는 정상성을 갖는다고 한다. |
즉 정상성을 갖는 시계열의 경우 시간에 관계없이 평균은 일정하고, 분산은 시간의 영향을 받지 않고 자료 간 간격의 영향만 받는다는 것을 알 수 있다.
추가적으로 Def 1.2의 (b) 조건에서 \( k=0 \)일 때 생각해주면 모든 자료의 분산 또한 시간에 관계없이 일정하다는 것을 알 수 있다.
즉, 시계열이 정상성을 갖는다는 것은 일정한 값을 기준으로 일정한 분산을 가지고 변동한다는 의미이다.
Def 1.3 \( k = 0,1,...,\)에 대해 시계열 \(x_t\)의 \(k\)th-order 자기상관(autocorrelation)은 다음과 같이 정의된다. \[ \rho_k = \frac{\gamma_k}{\gamma_0}. \] |
이때 자기상관들을 모아놓은 것을 자기상관함수(autocorrelation funciont, ACF)라고 한다.
이 ACF는 이후 나오게 될 MA모델에서 매우 중요한 역할을 하므로 꼭 기억하길 바란다.
\(T\)개의 관측치가 있는 시계열 \( \{x_t \}_{t=1}^T \)의 \(k\)th-order 표본자기상관은 다음 식을 이용해 구한다.
\( \bar{x} = \frac{1}{T} \sum_{t=1}^T x_t \)라고 할 때, \( \hat{\rho}_k = \frac{ \sum_{t=k+1}^{T} (x_t -\bar{x})(x_{t-k} - \bar{x}) }{ \sum_{t=1}^{T} (x_t - \bar{x})^2 }. \)
위에서 구한 표본자기상관을 이용해 다음 검정을 수행할 수 있다.
Thm 1.4 (Ljung-Box Test) \( H_0 : \rho_1 = \rho_2 = \ldots = \rho_m =0 \) vs \(H_1 : \rho_i \ne 0~for~some~i \in \{1, \ldots,m \} \) 일 때 \[ Q(m) = T(T+2) \sum_{k=1}^m \frac{ \hat{\rho}_k ^2}{T-k} \approx \chi^2 (m) ~under~H_0 .\] \( Q(m) > \chi^2 (\alpha) \)이면 \(H_0\)를 기각한다. |
위 검정에서 \(m\)은 보통 임의로 설정된다.
다음의 정의를 주목하자.
Def 1.5 시계열 \( x_t \)가 모든 \(t\)에 대해 (a) \( E(x_t) =0 \), (b) \( Var(x_t) = \sigma ^2\), (c) \( Cov(x_t , x_{t-k})=0~~^{\forall} k \ne 0 \)일 때 시계열 \(x_t \)를 백색소음(white noise)라고 하고, \(x_t \sim WN(0, \sigma^2 )\)라고 쓴다. |
결국 시계열 \(x_t\)가 백색소음이라는 것은 평균이 0이고 분산이 일정한 분포의 \(i.i.d.\) 확률변수라는 것을 알 수 있다.
일반적으로 \( x_t \sim WN(0, \sigma ^2 ) \)라는 것은, 시간 \(t\)에서의 새로운 정보나 충격을 나타낸다.
Thm 1.4와 Def 1.5를 함께 생각해 보면, 정상성을 갖는 시계열 \(x_t\)가 백색소음인지 아닌지 검정을 하는 것은 자기상관이 모두 0인지 검정하는 것과 같고, 만약 Ljung-Box Test에서 \(H_0\)가 기각될 경우 \(x_t\)는 백색소음이 아니라는 결론을 얻게 된다.
지금까지 시계열의 정의, 정상성과 백색소음에 대해 알아보았다.
다음 포스트에서는 자기회귀모델(autoregressive model, AR)에 대해 알아본다.
오늘은 여기까지.
'FinancialTimeSeries' 카테고리의 다른 글
06. Trend-Stationarity & Unit-Root Process (0) | 2024.03.18 |
---|---|
05. Moving Average Model(2) & ARMA Model (0) | 2024.03.10 |
04. Moving Average Model(1) (1) | 2024.01.26 |
03. Autoregressive Model(2) (2) | 2024.01.22 |
02. Autoregressive Model(1) (1) | 2024.01.14 |