JANGUN


예측 방법론


지음 : 이긍희 외



목차

요약
제1장 예측의 개요
제2장 예측데이터 - 시계열
제3장 예측데이터의 기초분석
제4장 시계열모형
제5장 시계열모형을 이용한 예측
제6장 예측데이터의 분해와 평활법을 이용한 예측
제7장 회귀모형을 이용한 예측
제8장 VAR 모형을 이용한 예측
제9장 공적분분석으 이용한 예측
제10장 데이터마이닝을 이요한 예측


요약

- 시계열 : 이동평균을 이용해서 분해(계절변동 → 추세 → 불규칙변동 순으로 추출 : 순환변동만 남는다.)
- 자기상관계수 : 륭-박스 검정, 카이제곱분포
- 부분자기상관계수 :

- 주파수 분석 : 주기가 긴 시계열(저주파 변동), 주기가 짧은 시계열 (고주파 변동)

- 시계열 모형 : 선형(ARIMA), 비선형(이선형모형, TAR, GARCH), 안정(백색잡음), 불안정(GDP)
- 자지회귀모형(AR) : 현재 시계열을 과거 시차의 시계열로 설명

- 이동평균모형(MA) : 현재와 과거의 오차(충격파)들의 선형결합

- ARMA(1,1) : 자기상관계수와 부분자기상관계수로 식별이 어렵다. (사후적으로 AIC, BIC 모형선택 기준 필요)
- 확률보행모형 (ARIMA(0, 1, 0) : 불안정 시계열 (평균 일정, 분산 증가-1) (평균, 분산 모두 증가 -2)

- ARIMA(1,d,1) : 불안정 시계열을 d차 차분해서 안정시계열로 변환






- 단위근이 있는 시계열을 차분하면 단위근이 없어짐. (단위근 검정 : 디키플러, ADF, 필립스-패런 검정)
- 비선형성 검정 : Keenan 검정 (F 검정), Tsay 검정, BDS 검정
- 이분산성 검정 : ARCH-LM 검정 (카이제곱 검정), McLeod and LI 검정 (륭-박스 검정)
- ARIMA 모형 수립 :
시계열의 안정성 점검(d, 변수변환) → 모형의 식별 (p, q 결정, 상관도표, 부분상관도표) → 모수 추정(최대가능도/최소제곱 추정법)
→ 모형 진단 (과대적합진단, 잔차(오차는 평균0, 분산(일정) 서로 독립인 백색잡음)분석 – 륭박스 검정) → 예측 (예측 오차 MSE 최소화)
- 자산 수익률의 ARHC 모형
- 계정조정법 : X12(이동평균법-한국), TRAMO-SEATS(모형접근법-미국), X-13ARIMA-SEATS (F 검정)
- 추세변동 추출 : HP 필터(spline 평활법)
- 시계열을 퓨리에 변환 후 주파수변동 추출
- 지수평활법 : 최근 자료일수록 더 큰 값을 가중평균하는 방법, Holt-Winter 모형, 이해 쉬우나 이론적 미흡

- 회귀모형을 이용한 예측 : 교차 상관계수, Xt와 Yt 선행/동행/후행 파악), k<0이면, Yt가 선행, r(k)>0, Yt 경기 순응적
- 모형의 설정 → 추정 (t통계량, 결정계수R2, 0~1) → 진단(잔차, 오차의 자기 상관관계 조사, DW 검정, 2 없음, <2 양,>2 음, 자기상관 제거-코레인-오컷 방법)
- 다중공선성 : 유사한 설명변수 추가 시, 추정에 문제 발생, 최소제곱법
- 예측 : 내생변수-구할 수 있는 변수, 외생변수-주어지는 변수)


- VAR 모형 (다변량 시계열 모형) : VMA, VARMA 모형, 변수들 사이에 나타나는 동태적인 관계를 분석하고, 예측
- 인과관계 분석, 충격반응 분석, 예측오차 분해, 예측(모두 내생변수) / 결과가 달라짐, 모수가 많다. 이론에 근거 않다.

- 공적분 분석을 이용한 예측 : Yt ~ I(d) : 불안정 시계열 Yt가 d번 차분하면 안정적인 적분계열
- 가성적 회귀 : 외견상 적합해 보이나 실제로 의미가 없는 현상, 결정계수높고, t-통계량 높고, DW 통계량 낮게 추정됨)
- d=1, 1차 단위근을 포함하는 불안정 시계열, 단위근 검정으로 d 값을 추정
- Engle, Granger의 공적분 검정 (공적분 회귀모형 추정, 오차항 안정성 분석, 잔차항에 대한 단위근 검정, 오차수정모형

- 데이터마이닝을 이용한 예측 : 분류나무 모형(불순도 계산, 지니 지수, 범주형 자료), 회귀나무 모형 (연속형 자료)



제1장 예측의 개요

- 예측은 미래 시점에서의 사건을 추측하는 것으로 의사결정을 위해서는 반드시 필요하다.
- 예측은 크게 주관적 예측과 객관적 예측으로 나눌 수 있다.
주관적 예측은 전문가들이 경험 또는 느낌을 바탕으로 실시하는 예측이고,
객관적 예측은 경제변수들의 관계를 수리(통계)모형으로 표현하고, 그 관계가 미래에도 지속될 것으로 보고 실시하는 예측이다.
- 시나리오 예측은 미래의 불확실성이 클 때 미래에 일어날 수 있는 가능성이 큰 몇 개의 시나리오를 만들고 이에 따라서 각각의 시나리오별로 복수의 예측을 하는 것이다.
- 예측모형은 모형의 식별, 모형의 추정, 모형의 진단으로 구성되는 3단계를 거쳐 작성된다.
- 예측력은 예측이 얼마나 정확하게 미래를 맞추었는지를 파악하여 알 수 있는데 예측값과 실제값을 비교하여 계산된다.



제2장 예측데이터 - 시계열

- 시계열은 국내총생산, 1인당 국민소득, 물가지수, 주가지수, 강우량 등을 연도별, 계절별, 월별 또는 일별로 시간의 흐름에 따라 순서대로 관측한 자료이다.
- 시계열도표는 시간의 경과에 따라 시계열이 변하는 것을 그린 그림으로, 시계열도표로 시계열이 가지는 특징을 한눈에 알아볼 수 있다.
- 시계열은 일반적으로 그 변동주기에 따라 추세변동요인, 순환변동요인, 계절변동요인, 불규칙변동요인으로 구성된다고 가정한다.
- 시계열은 시계열의 움직임이 구간이 달라지더라도 매 구간별 특성이 동일한 안정(stationary)시계열과 매 구간별 특성이 달라지는 불안정(nonstationary)시계열로 구분된다.
- 시계열의 흐름을 보다 정확히 파악하기 위해 시계열에 대해 함수변환 또는 달력조정을 실시한다.
- 시계열의 차분을 통해 시계열의 추세변동요인을 제거할 수 있다.
- 평활화(smoothing)는 주기가 짧은 변동요인을 제거하여 시계열의 흐름을 파악하는 방법이다.



제3장 예측데이터의 기초분석

- 시계열의 분포는 시계열의 흩어짐을 그림으로 표현한 것이다.
- 자기상관계수는 시계열의 현재와 과거 또는 미래의 상관관계를 나타내는 지표이다.
- 륭(Ljung)과 박스(Box)의 검정(portmanteau 검정)을 통해 시계열의 일정 시차까지의 자기상관 관계 존재 여부를 파악할 수 있다.
- 시계열은 시간영역정보와 주파수영역정보를 가지고 있다. 이러한 시계열의 시간영역 정보는 상관도표와 부분상관도표를 통해, 주파수정보는 스펙트럴 밀도함수를 통해 살펴볼 수 있다.
- 부분자기상관계수는 시계열의 현재, 과거, 미래의 순수한 자기상관관계를 나타내는 지표이다.
- 주기도 또는 스펙트럼을 통해 시계열의 주파수 정보, 즉 어떤 주기의 변동이 존재하는지 파악할 수 있다.



제4장 시계열모형

- 시계열모형은 확률법칙에 의해 생성된 일련의 통계적인 현상을 수학 함수로 나타낸 확률과정으로, 안정시계열모형과 불안정시계열모형으로 구분된다.
- AR(자기회귀) 모형은 시계열의 현재 상태가 과거 상태에 의존하여 움직인다고 가정한 모형이다.
- MA(이동평균) 모형은 시계열의 현재 상태가 과거 오차의 선형결합으로 표현된다고 가정한 모형이다.
- AR 모형과 MA 모형을 동시에 포함하는 시계열모형을 ARMA(자기회귀이동평균) 모형이라 한다.

- 시계열을 차분해서 ARMA 모형이 되는 모형을 ARIMA 모형이라 한다.
- 계절변동을 포함한 ARIMA모형으로는 계절 ARIMA 모형이 있다.
- TAR(Treshold Autoregressive) 모형은 시차변수의 값을 임계치와 비교하여 AR모형을 달리하는 시계열 모형이다.
- GARCH모형은 조건부 이분산의 움직임을 분석하여 시계열의 변동성이 시간의 흐름에 따라 달라지는 측면을 잘 포착할 수 있는 시계열모형이다.



제5장 시계열모형을 이용한 예측

- 시계열이 안정적인지를 검정하는 대표적인 방법을 단위근검정이라 하는데, 대표적인 방법으로는 ADF 검정이 있다.
- ARIMA 모형은 ‘①모형의 식별→②모형의 추정→③모형의 진단’이라는 3단계의 반복적인 작업으로 작성된다.
- ARIMA 모형의 식별단계는 ARIMA(p, d, q) 모형에서 p, d, q를 정하는 것이다.
- ARIMA 모형의 식별과정을 통해 적절한 모형이 선택되면 최우추정법, 조건부, 비조건부 최소제곱추정법 등으로 모수의 값을 추정된다.

- 모형 진단과정은 모형의 식별 및 추정 단계를 거친 후 얻어진 잠정모형이 타당한지의 여부를 검토해 보는 단계이다.
- 시계열을 이용하여 ARIMA 모형이 제대로 설정되었다면 시계열이 동 모형의 형태로 움직일 것으로 가정하고 동 모형을 이용하여 예측을 실시한다.
- GARCH모형은 시계열에 나타나는 조건부 이분산을 추정함으로써 시계열의 변동성이 시간의 흐름에 따라 달라지는 측면을 분석하는 모형이다.



제6장 예측데이터의 분해와 평활법을 이용한 예측

- 계절조정은 1년 주기의 계절변동요인을 추출하여 원래의 시계열로부터 제거하는 것이다.
- 계절조정법으로는 이동평균법과 모형접근법에 의한 계절조정이 있다. 대표적인 이동평균법에 의한 계절조정방법은 X-11 ARIMA, X-12-ARIMA 등이 있으며, 모형접근법에 의한 계절조정방법은 TRAMO-SEATS이다.
- X-12-ARIMA 계절조정은 '양 끝 연장 및 사전조정→계절성 식별→계절조정→사후진단'의 과정을 통해 수행된다.
- X-13ARIMA-SEATS은 X-12-ARIMA와 TRAMO-SEATS를 동시에 이용할 수 있는 계절조정 프로그램이다.

- 추세변동요인 추출법은 전통적 방법, 평활법, 모형에 의한 방법으로 구분할 수 있는데 경제시계열에 대해서는 HP필터가 주로 이용된다.
- 순환변동요인 계열은 시간영역 및 주파수영역에서 작성될 수 있다.
- 지수평활법은 최근의 시계열에 더 큰 가중값을 주고 과거로 갈수록 가중값을 지수적으로 줄여서 평균하는 방식으로 미래를 예측하는 방법이다.



제7장 회귀모형을 이용한 예측

- 교차상관계수는 두 시계열의 시차구조와 상관관계 나타내는 지표이다.
- 회귀분석(regression analysis)은 둘 또는 그 이상의 변수 간의 함수관계를 통계자료를 바탕으로 파악하는 방법이다. 회귀모형은 원인이 되는 설명변수(X)가 결과가 되는 종속변수(Y)를 설명하도록 설정되어 있다.
- 회귀분석모형은 종속변수를 두 개 이상의 설명변수를 이용하여 표현하는 선형회귀모형이다. 종속변수 Y와 설명변수 X1, X2, ..., Xk의 관측치를, t = 1, 2, n 이라 할 때 설명변수가 k개인 회귀분석모형은 다음과 같이 표현된다.
오차항(εi)은 서로 독립이며 평균이 0, 분산이 일정하며 독립변수와 무관하고 정규분포를 따른다고 가정한다.

- 회귀모형의 추정방법으로는 최소제곱법, 최우추정법, 적률추정법이 있다. 이중 최소제곱법은 보다 많은 관측치들이 직선에 가깝도록 하는 모수를 추정하는 방법이다.
- 회귀모형의 적합도는 결정계수(R2)와 수정된 결정계수를 이용한다.
- 잔차 (rt=yt-y't)를 축 중심으로 그려 봄으로써 모형의 타당성을 검토할 수 있다. 잔차가 x축을 중심으로 임의로 분포해 있다면 모형이 제대로 설정되었다고 할 수 있다.
- 회귀모형이 미래에도 성립한다고 보고 설명변수 값을 예측하여 미래를 예측한다.
- 현재 시점에서 발생된 오차가 미래 시점에도 영향을 미치는 경우 자기상관이 존재한다고 한다. 자기상관의 검진방법으로는 더빈-왓슨 검정이 있으며, 해결방법으로는 코크란-오컷 방법 등이 있다.
- 연립방정식모형은 상호관계가 있는 변수끼리 여러 개의 회귀모형으로 그룹을 만들어 모형화한 것이다. 연립방정식모형은 변수 사이에 존재하는 동시적 영향관계를 포착한다.
- 연립방정식모형은 설정(specification), 추정(estimation), 모의실험(simulation)의 과정을 거쳐 작성된다.



제8장 VAR 모형을 이용한 예측

- 이용 가능한 모든 시계열에 대해 내생변수와 외생변수를 구분하지 않고, 모수에 대한 사전적 제약 없이 모형을 선정하는 다변수 시계열모형인 VAR(Vector Autoregressive, 벡터자기회귀) 모형이 구조모형의 식별과정의 한계를 해결하는 대안으로 제시됐다.
- VAR 모형은 검증되지 않은 이론에 의존하지 않고 시계열 사이에 나타나는 관계를 규명하기 위해 개발된 실증분석모형으로 인과관계, 충격반응, 분산분해 등의 개념을 이용하여 변수 사이의 동태적인 관계를 파악하는 데 유용하다.
- 회귀모형을 이용하는 경우에는 설명변수의 미래값에 대응하는 조건부 예측을 시행하는 데 반해, VAR 모형은 모든 변수가 내생변수이므로 특정한 조건 없이 예측치 추정이 가능하여 시계열에 대한 예측에 많이 활용되고 있다.



제9장 공적분분석으 이용한 예측

- 불안정시계열을 대상으로 회귀분석을 하는 경우 일반적인 가설검정기법을 적용하면, 실제로는 변수 사이에 아무 상관관계가 없는데도 불구하고 회귀식 추정결과가 외견상 유의성이 높은 상관관계가 있는 것처럼 나타나는 가성적 회귀 현상이 발생한다.
- 두 개의 불안정시계열 사이에 균형관계가 나타나고, 이러한 균형관계로부터의 괴리가 안정적일 경우 두 변수 사이에는 공적분 관계가 존재한다.
- 두 개 이상의 경제시계열의 장기적 관계가 안정적일 때(공적분 관계가 존재할 때) 차분방정식에 장기적 관계에 대한 균형오차를 추가한 오차수정모형을 만들 수 있다.



제10장 데이터마이닝을 이요한 예측

- 데이터마이닝이란 다량의 가공하지 않은 데이터로부터 소량의 귀중한 정보를 찾아내는 과정이다.
- 데이터마이닝에서 활용되는 모형은 통계학의 유연한 함수추정 분야에서 다루어지고 있는 것들이므로 데이터마이닝을 통계학의 틀 안에서 데이터 분석 및 예측모형 적합과정으로 이해할 수 있다.
- 나무모형은 분석결과를 이해하기 쉽고 대용량 자료처리에 용이하여 많은 분야에서 사용하고 있으나 모형이 불안정하고 예측력의 정확도가 떨어지는 단점이 있다.
- 나무모형의 분할은 분할 후 생성된 노드의 불순도 함수값의 감소폭이 최대가 되도록 변수 및 분기점을 탐색하는 과정이다.
- 회귀나무는 나무형 구조의 회귀분석 방법이다.
- 회귀나무의 분기변수로 최종 선택된 변수들은 데이터를 효과적으로 설명하는 중요 변수라고 할 수 있다.