비정상 시계열을 위한 고급 예측 모형
ARIMA 모형과 차분(Differencing)으로 트렌드·계절성 다루기
- 비정상 시계열 모형화의 흐름
- 차분(Differencing) — 트렌드와 계절성 제거
- Dickey-Fuller 단위근 검정
- ARIMA(p,d,q) 트렌드 모형
- ARIMA(p,d,q)(P,D,Q)_S 계절 모형
- ACF·PACF로 차수 결정하기
- 잔차 독립성 검정 (Box-Ljung Test)
- 홀드아웃과 모형 선택
- 예측 시 주의사항
1. 비정상 시계열 모형화의 흐름
시계열 데이터에 트렌드나 계절성이 존재하면 단순 ARMA 모형을 바로 적용할 수 없습니다. Box-Jenkins 방법론은 비정상성(nonstationarity)을 먼저 제거한 뒤, 정상 잔차에 ARMA 모형을 적합시키는 순서를 따릅니다.
2. 차분(Differencing) — 트렌드와 계절성 제거
Box-Jenkins 방법론에서 비정상성을 제거하는 확률론적(Stochastic) 방법은 차분(Differencing)입니다. 트렌드를 t에 대한 함수로 직접 넣는 결정론적 방법과 대비됩니다.
랜덤워크와 1차 차분
계절 차분 (Seasonal Differencing)
월별 데이터처럼 주기 S가 있는 경우, 현재 값을 S시점 이전 값의 함수로 표현합니다.
트렌드 + 계절성 동시 차분
3. Dickey-Fuller 단위근 검정
차분이 필요한지 통계적으로 판단하려면 Dickey-Fuller(ADF) 단위근 검정을 사용합니다.
Ha (대립가설): 정상 AR 프로세스 (|φ| < 1) → 차분 불필요
| 검정 종류 | 모형 형태 | 사용 상황 |
|---|---|---|
| Zero Mean | Y_t = φY_{t−1} + ε_t | 평균이 0인 경우 |
| Single Mean | Y_t − μ = φ(Y_{t−1} − μ) + ε_t | 평균이 0이 아닌 경우 (실무에서 가장 많이 사용) |
| Trend | Y_t − β₀ − β₁t = φ(Y_{t−1} − …) + ε_t | 결정론적 트렌드가 있는 경우 |
Augmented Dickey-Fuller (ADF) 검정
기본 DF 검정에 AR 항을 추가한 확장 버전입니다. lag 0은 기본 DF 검정과 동일하며, lag 1은 AR(2) 모형을, lag k는 AR(k+1) 모형을 고려합니다.
| 검정 통계량 | 설명 | 권장 여부 |
|---|---|---|
| Rho (ρ) | 회귀계수 기반 검정 (정규화 편향 검정) | lag 1에서 Tau보다 검정력 우수 |
| Tau (τ) | Studentized 검정 (t-통계량 유사) | lag 2 이상에서 권장 |
| F | 전체 모형 F 검정 | 검정력 낮아 거의 권장 안 함 |
p-value < 0.05 → 귀무가설 기각 → 단위근 없음 → 차분 불필요
PROC ARIMA 코드 예시
identify var=Y nlags=12
stationarity=(adf=(0 1 2 3 4 5));
run;
identify var=Y nlags=12
stationarity=(adf=(0 1 2 3 4 5) dlag=12);
run;
p-value가 0.05 근처에서 나왔을 때 칼같이 기각시킬 필요는 없습니다. 0.051이 나왔다고 0.049와 본질적으로 다르지 않아요. 한 0.1 이상이면 괜찮고, 0.02~0.03 밑으로 떨어지면 더 확실한 거죠. 경계선에 있을 때는 연구자의 판단을 발휘하세요.
4. ARIMA(p,d,q) 트렌드 모형
ARIMA는 AutoRegressive Integrated Moving Average의 약자입니다. 차분(Difference)의 역연산이 적분(Integration)이기 때문에, 차분된 시계열의 ARMA 모형을 원래 스케일의 예측값으로 변환하는 과정이 포함됩니다.
Z_t = Y_t − Y_{t−1} ← 차분 성분
5. ARIMA(p,d,q)(P,D,Q)_S 계절 모형
트렌드와 계절성이 모두 있는 데이터에는 비계절 차수(p,d,q)와 계절 차수(P,D,Q)를 함께 지정합니다.
| 기호 | 의미 | 예시 (월별) |
|---|---|---|
| p | 비계절 AR 차수 | 직전 1~p 시점 사용 |
| d | 비계절 차분 차수 | 보통 0 또는 1 |
| q | 비계절 MA 차수 | 직전 1~q 오차항 사용 |
| P | 계절 AR 차수 | 12, 24, 36… 시점 사용 |
| D | 계절 차분 차수 | 보통 0 또는 1 |
| Q | 계절 MA 차수 | 12, 24… 시점 오차항 사용 |
| S | 계절 주기 길이 | 월별=12, 분기=4 |
= θ₀ + ε_t − θ₁ε_{t−1} + θ₁Θ₁ε_{t−13}
identify var=Y(1,12); /* 1차 + 12차 계절 차분 */
estimate p=(1) q=(1) P=(1) Q=(1) s=12;
forecast out=result lead=24;
run;
6. ACF·PACF로 차수 결정하기
차분으로 트렌드·계절성을 제거한 후, 잔차 시계열에 ACF와 PACF를 적용해 ARMA의 p, q를 결정합니다.
| 패턴 | ACF | PACF | 시사 모형 |
|---|---|---|---|
| AR(p) | 지수적 감소 (또는 진동 감소) | p번째 lag 이후 급절단 | AR(p) |
| AR(2) | 지수적 감소 (진동 포함) | 2번째까지 피크, 이후 0 | AR(2) |
| MA(q) | q번째 lag 이후 급절단 | 지수적 감소 (또는 진동) | MA(q) |
| ARMA(p,q) | 지수적 감소 (q+1 이후) | 지수적 감소 (p+1 이후) | ARMA(p,q) |
AR 항의 첫 번째 ACF 값이 0.5보다 크게 나오는 경우가 많습니다. MA 항만 있을 경우 0.5보다 작아요. 그래서 첫 번째 lag 값이 크게 나오면 AR 성분이 있을 가능성이 높다는 노하우가 있습니다. 경험상 AR 차수가 5를 넘어가면 MA 항이 있는 건 아닌지 의심해 보세요. AR이 길어질수록 MA로 더 간결하게 표현할 수 있거든요.
PACF → AR(p)의 p 결정에 활용 (절단점까지의 lag 수 = p)
신뢰 구간(점선) 안에 완전히 들어오는 지점 이후는 0으로 간주
PQ 후보 범위를 잡은 뒤 모든 조합을 검토하고 잔차 독립성으로 후보를 좁힘
7. 잔차 독립성 검정 (Box-Ljung Test)
모형을 적합한 뒤에는 반드시 잔차가 독립(White Noise)인지 확인해야 합니다. 이를 위해 Box-Ljung Test(= Box-Pierce Test의 개선 버전)를 사용합니다.
Ha : 잔차들 사이에 상관관계 있음 → 차수 재검토
p-value < 0.05 → H₀ 기각 → 잔차에 패턴 남음 → AR 또는 MA 차수 추가
데이터셋이 작고(예: 3년치) lag가 길면 검정력이 낮아집니다. 이럴 때는 유연하게 판단하세요.
여러 lag에서 전반적으로 p-value가 충분히 크면 OK로 볼 수 있습니다.
p-value가 아주 작게 나오면(0.001 수준) 독립이 아니라는 확실한 증거입니다. 반대로 0.5가 넘으면 충분히 안전하죠. 0.05 근처라면 어지간하면 귀무가설을 기각하기 싫다는 심리적 기준이 있는데, 그냥 본인 판단에 맡기면 됩니다. 이 검정의 p-value는 점근적(asymptotic) 분포를 사용하기 때문에 n이 충분히 커야 정확합니다.
8. 홀드아웃과 모형 선택
시계열에서는 일반적인 랜덤 분할이 불가능합니다. 시간 순서를 유지해야 하기 때문입니다. 대신 마지막 1년(한 시즌)을 홀드아웃 셋으로 사용합니다.
계절성이 있는 데이터는 최소 한 시즌(봄·여름·가을·겨울 모두)을 검증 기간으로 잡아야 합니다. 특별히 안 맞는 계절이 있을 수 있으니까요. 마치 결혼 전에 사계절은 지나봐야 안다는 말처럼, 데이터도 한 사이클 전체를 보는 게 맞습니다.
모형 선택 우선순위
9. 예측 시 주의사항
ARMA 모형의 장기 예측은 평균으로 수렴
정상 ARMA 프로세스는 충분히 긴 기간 예측 시 결국 과거 평균으로 수렴(flat)합니다. 예측값이 수평선으로 나온다면 정상 ARMA 모형임을 시사합니다. 반면 트렌드나 계절성이 포함된 모형은 예측값이 계속 증가하거나 패턴을 유지하며, 신뢰 구간이 시간이 지남에 따라 점점 넓어집니다.
코스피가 내년에 얼마가 될까요? "천에서 만 사이 아니겠어요?"라고 답하면 예측이라고 할 수 없죠. 신뢰 구간이 너무 넓으면 그게 현실입니다. 통계학자로서 신뢰 구간을 임의로 좁힐 수는 없습니다. 먼 미래일수록 구간이 넓어지는 것이 정직한 예측이에요. 반면 한 달 후 예측처럼 구간이 좁으면 훨씬 의미 있는 정보가 됩니다.
'인하대학교 공학대학원(인공지능융합전공) > 시계열 분석' 카테고리의 다른 글
| 7. Deterministic Analysis— 회귀분석 기반 결정론적 시계열 모형 (0) | 2026.05.21 |
|---|---|
| 6. R 기초 & 시계열 시각화— Time Plot & Smoothing (0) | 2026.05.21 |
| 5. Advanced Forecast Models for Autocorrelated Time Series (2026) (0) | 2026.05.08 |
| 4. Simple Forecast Models (2026) (0) | 2026.04.17 |
| 3. Introduction to Forecasting_(2) (2026) (0) | 2026.03.27 |