JANGUN


회귀분석


지음 : 김성수 외



목차

제1장 회귀분석의 개념
제2장 단순회귀분석
제3장 중회귀분석
제4장 중회귀분석 추론
제5장 변수선택
제6장 자료의 진단
제7장 모형의 진단
제8장 모형 개발


제1장 회귀분석의 개념

1.1 회귀분석이란?
회귀분석(Regression Analysis) : 독립변수들과 종속변수 사이의 함수관계를 규명하는 통계적 분석방법
- 독립변수(설명변수) : 위 예에서 국민소득, 자동차 사고발생건수 등은 다른 변수에 영향을 주는 변수로 독립변수(independent variable) 또는 설명변수(explanatory variable)라 함.
- 종속변수(반응변수) : 자동차 보유대수, 범죄발생건수, 입원 환자 수 등은 독립변수에 의하여 영향을 받는 변수로 종속변수(dependent variable) 또는 반응변수(response variable)라고 부름
- 회귀(回歸)의 원래 의 : ‘다시 본디의 자리로 돌아 온다’ 라는 뜻
- 골톤(Galton: 1822-1911) : 회귀라는 용어를 통계분석에 처음으로 사용한 사람으로, 영국의 우생 학자임. 아버지의 키 X와 아들의 키 Y간의 관계식은 양의 직선관계이나 기울기가 45도 보다 작아서, 아들의 키는 인간의 평균키로 회귀하려는 경향이 있다고 주장함.
- 피어슨Pearson, 1903) : 당시 런던 주위에 살고 있는 1,078 가족의 부자간 키에 관한 자료를 수집하여, X와 Y(단위는 인치) 간의 관계를 나타내는 그래프를 얻음. 이 그림은 아버지의 키 별로 아들들의 평균키를 구하여 표시하고, 이들 간의 관계를 나타내는 직선을 표시한 것임.
- 산점도(scatter plot) : 두 변수간의 함수관계를 찾아보는 첫 단계로서 도표 상에 관측점들은 찍어서 그림으로 그려보는 것으로, 이 도표를 산점도(scatter plot)라고 부르며, 이 산점도로부터 두 변수간의 관계를 대략적으로 짐작할 수 있음.

회귀모형의 종류



제2장 단순회귀분석

산점도(scatter plot)
- 두 변수간의 함수관계를 밝히기 위한 첫 단계로서는 두 변수간의 산점도(scatterplot)를 그려봄. 산점도란 한 변수를 x축으로 놓고, 다른 한 변수를 y축으로 그린 그림으로서, 두 연속인 변수들 간의 관계를 밝히고자 할 때 가장 널리 이용되는 그래프임.

단순회귀모형

회귀선의 추정
- 회귀선 : 표본자료로부터 추정하여 얻은 직선 (추정된 회귀직선, 또는 회귀선)

- 회귀계수 b0, b1은 각각 β0, β1의 추정값

최조제곱법
- 오차제곱들의 합을 최소로 하는 β0, β1의 값들을 이들의 추정값 b0, b1으로 하는 방법
- 오차제곱합(S)를 편미분하여 구한다.


잔차 (residual) : Xi에서 측정된 값 Yi와 추정된 값의 차이



회귀모형의 정도 : 추정된 회귀선의 정도를 측정하는 측도(measure)
(1) 분산분석표에 의한 F-검정
(2) 결정계수
(3) 추정값의 표준오차

분산분석표에 의한 F-검정
- 주어진 자료를 적합시키는 데 있어서 회귀직선이 유의성(significant) 판단 : 분산분석표 (analysis of variance table) 이용






결정계수 R2 (coefficient of determination) : 총변동 중에서 회귀선에 의하여 설명되는 비율, 0≤결정계수≤1

- 상관관계가 있을수록 1에 가까워짐.
- 0에 가까운 값을 가지는 회귀선은 선형적인 의미가 없음을 의미

추정값의 표준오차

- 분산분석표에서 잔차평균제곱 MSE는 σ2의 불편추정량이 됨.
- 따라서 MSE의 제곱근을 추정값의 표준오차(standard error of estimate)라고 부름.
- 추정값의 표준오차는 두 모형의 비교에서 이 값이 작은 모형이 주어진 자료에 더 잘 적합한다는 의미로 이용됨.

상관계수

- 상관계수는 두 연속인 변수간의 선형관계(linear relationship)가 어느 정도인가를 재는 측도
- 상관계수는 결정계수의 제곱근이며, 만약 추정된 회귀선의 기울기가 양이면 양의 상관계수를 갖고,기울기가 음이면 음의 상관계수를 가짐.

2.4 단순회귀의 추정과 검정



2.5 가중회귀
- 오차항마다 분산이 다른 경우




제3장 중회귀분석

- 중회귀모형 : 종속변수의 변화를 설명하기 위하여 두 개 이상의 독립변수가 사용되는 선형회귀모형을 중선형회귀(multiple linear regression model)라 부르며, 간단히 중회귀모형(multiple regression model)이라고도 함.

- 독립변수의 수가 k개인 중회귀모형


- 행렬을 이용한 중회귀 모형


- 회귀 계수의 추정


잔차의 성질
(1) 잔차의합은0
(2) 잔차의독립변수에대한가중합은0
(3) 잔차의추정값에대한가중합도0
(4) 중회귀모형에서오차항은 N(0, Iσ2)의분포
(5) εi항들 간에는 서로 상관관계가 없이 서로 독립적이나, 잔차 ei간에는 상관관계가 일반적으로 존재함

회귀방정식의 신뢰성
(1) 분산분석표에의한F-검정
(2) 결정계수(Coefficient of determination)
(3) 잔차평균제곱(residual mean squares)
(4) 추정된회귀계수들의분산
(5) 종속변수의추정량의분산

수정결정계수 :

- 독립변수가 추가하게 되면 결정계수는 항상 증가하게 됨.
- 왜냐하면 총제곱합 SST는 고정된 값이고, 잔차제곱합 SSE는 독립변수가 추가될수록 작아지게 되므로 결정계수는 증가하는 성질을 가지고 있음.
- 따라서 독립변수들을 추가하다 보면 과다한 적합을 할 수 있게 되므로 모형개발이라는 입장에서 볼 때 결정계수를 수정한 다음과 같은 수정 결정계수가 자주 이용됨.
- 수정결정계수는 설명력이 떨어지는 독립변수가 추가될 때는 감소하는 성질을 가지고 있으므로 모형선택의 관점에서 이용됨



제4장 중회귀분석 추론

변수 추가
- 중회귀모형을 적합하는데 있어서 어떤 특정한 변수를 회귀모형에 포함시키는 것이 바람직한가를 결정하고 싶은 경우
- 이 변수를 포함시키지 않고 구한 회귀제곱합에서 이 변수를 포함시키고 구한 회귀제곱합(regression sum of squares, SSR)이 추가적으로 어느 정도 커졌는가를 검토.
- 이와 같은 경우에 추가적으로 증가된 제곱합을 추가제곱합(extra sum of squares)이라고 함.

- 추가제곱합은 새로운 변수가 모형에 추가될 때의 회귀제곱합의 증가분을 나타내는 것으로 서 이 값이 작을수록 회귀에 대한 기여도가 떨어진다는 것을 의미.

추가변수 그림(added variable plot)
- 중회귀모형에서 새로운 변수선택은 기존의 모형이 설명하지 못하는 부분을 새로운 변수가 들어옴으로써 추가설명력이 얼마나 유의한가에 따라 결정
- 새로운 변수의 효과를 그래프로 표현한 그림이 추가변수그림(added variable plot)으로, 편회귀그림(partial regression plot)이라고도 함.

잔차의 검토



제5장 변수 선택

변수 선택
- 일반적으로 많은 사람들은 복잡한 모형보다는 간편한 모형을 선호.
- 반응변수에 영향을 미치리라고 예상되는 많은 설명 변수 중에서 모형에 포함 시킬 변수를 결정

다중공선성
- 포함되는 설명 변수들 사이에 연관성이 있는 경우에는 적합된 모형의 안정성과 신뢰성을 떨어 뜨림.


일반적으로 회귀모형을 분석하는 과정에서 다음 중 하나 이상의 현상이 발생하면 설명변수들 사이의 다중공선성에 대한 의심
(1) 설명변수들의 표본상관행렬에서 상관계수가 크게 (+1 또는 -1에 가까운 경우) 나타날때
(2) 어떤 설명변수를 모형에 추가하거나 제거하는 것이 추정된 회귀계수의 크기나 부호에 큰 변화를 줄 때
(3) 새로운 자료를 추가하거나 기존의 자료를 제거하는 것이 추정된 회귀계수의 크기나 부호에 큰 변화를 줄 때
(4) 중요하다고 생각되어지는 설명변수에 대한 검정결과가 유의하지 않게 나타나거나, 이 설명변수에 대한 회귀계수의 신뢰구간이 상당히 넓을 때
(5) 추정된 회귀계수의 부호가 과거의 경험이나 이론적인 면에서 기대되는 부호와 상반될 때

다중공선성 진단 통계량
1) 분산팽창인자 (VIF; varianceinflation factor)


변수선택 기준 :
- 결정계수
- 수정된 결정계수 : 변수가 포함되면 결정계수가 증대되면 변수 선택
- Mallows의 Cp 통계량
- AIC 값 = nlog(SSE/n) + 2(p+1) : 작은 모형을 선택

5.5 변수선택의 방법
(1) 모든 가능한 회귀 (all possible regression) : 이 방법은 모든 가능한 변수들의 조합을 회귀분석하여 보는 것임.
만약 k개의 설명변수가 있는 경우 2^(k-1) 개의 회귀모형을 적합
(2) 앞으로부터 선택법 (forward selection) : 반응변수에 영향을 줄 것으로 생각되는 k개의 설명변수들 중에서 가장 크게 영향을 줄 것으로 판단되는 변수부터 하나씩 선택하여 더 이상 중요한 변수가 없다고 판단될 때 변수의 선택을 중단하는 방법.
(3) 뒤로부터 제거법 (backward elimination) : 앞으로부터 선택법은 설명변수를 하나씩 선택하는 방법이나 뒤로부터 제거법은 이와 반대로 반응변수에 영향을 주리라고 생각되는 k개의 설명변수들 중에서 가장 작게 영향을 주리라고 여겨지는 변수부터 하나씩 제거하여 나가면서 더 이상 제거할 변수가 없다고 판단될 때 변수의 제거를 중단하는 방법
(4) 단계별 회귀방법 (stepwise regression) : 앞으로부터 선택법에 뒤로부터 제거법을 가미한 방법으로, 이 방법은 중요한 변수를 하나씩 선택하여 나가면서 이미 선택된 변수가 새로운 변수가 추가되면서 중요성을 상실하여 제거할 필요가 있는지를 매 단계별로 검토하는 선택방법



제6장 자료의 진단

6.1 회귀진단
- 총괄분석(aggregate analysis) : 회귀식을 구하고 추정 및 검정을 하는 과정을 총괄분석(aggregate analysis)이라고 함.
- 이 과정의 목적은 전체자료를 결합하여 적합모형(fitted model)이라고 하는 하나의 요약된 결과를 구하는 것임.
- 이러한 총괄분석은 설정한 회귀모형과 가정들이 정확하다는 전제하에 이루어 진 것임.
- 어떠한 문제에서도 그렇듯이 제시된 회귀모형 및 가정은 얼마든지 틀릴 수가 있음.
- 총괄분석에 이어 회귀분석의 두 번째 중요한 과정은 사용된 회귀모형 및 가정이 과연 타당한 지 그리고 각각의 관측값이 모형 및 가정에 어떠한 영향을 미치는 지를 진단하는 것임.
- 이러한 과정을 회귀진단(regression diagnostics)이라고 함.
- 총괄분석에 대비하여 이 과정을 개별분석(case analysis) 이라고도 함.
- 회귀진단은 모형진단(model diagnostics)과 자료진단(data diagnostics)의 두 가지로 구분
- 모형진단에서는 모형이나 가정에 어떤 문제점이 있나를 알아봄.
- 자료진단에서는 자료의 조그만 변화가 모형의 추정에 어떠한 영향을 미치는 가를 알아 봄.

6.2 잔차 분석
- 오차 (ε) : 관찰할 수 없는 변수로서 기대값 0이며 서로 상관관계가 없고 등분산이라고 가정.
- 잔차 (e) : 계산되어지는 값으로서 기대값벡터와 분산-공분산 행렬은 다음과 같음.
- E(e) = 0 , Var(e) = σ2(I - H)
- 오차와 같이 각각의 잔차는 기대값이 0 이지만 그 분산은 같지 않을 뿐 아니라 서로 상관관계가 있음.
- 만일 오차가 정규분포를 따른다면 잔차 역시 정규분포를 따른다고 할 수 있음

6.3 특이점 (outlier)
- 특이점은 회귀분석에서 중요한 가정 중의 하나는 자료에 포함된 모든 관측값에 대해 사용된 모형이 적절하다는 것임.
- 그러나, 실제 문제에서는 1-2개의 관측값이 대부분의 자료가 적합되는 모형을 따르지 않는 경우를 많이 봄.
- 이와 같이 나머지 관측값들과는 달리 주어진 모형을 따르지 않는 관측값을 특이점(outlier) 또는 이상점이라 부름.
- 자료진단의 중요한 기능 중의 하나는 이러한 특이점을 찾아내는 것
- 특이점의 검출 : 외면스튜던트화 잔차를 이용.
- 특이점으로 판정되면 먼저 그 원인이 어디에 있는가를 규명
- 자료 입력시 오류가 발생하였거나 실험이 잘못 되었거나 또는 잘못된 원료가 사용되었거나 자료를 측정하는 기계가 고장이 났다거나 등의 여러 가지 원인이 있을 수 있음.
- 이와 같이 원인이 밝혀지면 가능한 경우 다시 실험을 하여 새로운 자료로 대체시키고, 이것이 불가능한 경우 특이점을 제거시키고 분석

6.4 관측값의 영향
- 영향력이 큰 관측값(influential observation) : 자료에서 관측값을 제거하고 얻은 회귀분석 결과가 이 데이터를 포함시키고 얻은 결과와 판이하게 다를 때 이를 영향력있는 관측값이라고 함.



제7장 모형의 진단

7.1 모형진단이란
- 모형진단 : 모형이나 가정에 문제점이 있는지를 알아보는 것
- 모형진단이 필요한 이유는 우리가 사용하는 회귀모형이나 회귀모형에 대해 세운 가정이 실제 문제에서는 적절하지 못한 경우가 종종 발견되기 때문임.
- 잔차의 형태로부터 모형과 가정의 적정성 여부를 알 수 있음.

회귀모형에 부여되는 가정
1) 오차의 등분산성 가정. 모든 X값에 대해서 Y의 분산은 같다는 가정임.
2) 모형의 선형성 가정. 반응변수 Y와 설명변수 X사이에는 선형의 관계가 있다는 것임.
3) 오차의 정규성 가정이다. 모든 X값에 대해서 Y의 분포는 정규분포를 따른다는 가정

이러한 가정들의 타당성을 알아볼 수 있는 가장 보편화된 방법 :
- 잔차나 스튜던트화잔차를 세로축으로 하고 Yˆ을 가로축으로 하는 잔차산점도를 그려보는 것임.
- 각각의 설명변수를 가로축으로 하는 경우에는 이러한 산점도를 잔차-설명변수 산점도라 부름.
- 모형에 문제가 있거나 가정이 위배되었다면 잔차는 잔차산점도에 영향을 줄 것임.

잔차산점도 형태



7.2 오차의 등분산성
- 오차의 등분산성 가정 : 모든 관측값에 대해 오차의 분산이 같다. 즉, Var(εi)=σ2

오차의 등분산성 여부를 판단하는 방법
1) 잔차산점도를 이용 : 잔차나 스튜던트잔차를 세로축으로 하고 Yˆ을 가로축으로 하는 산점도에서 Yˆ이 증가함에 따라 세로축의 값의 퍼짐의 정도가 증가 또는 감소하는 모양의 산점도는 분산이 일정치 않음을 나타냄.
2) 스코어검정(score test) 이용 : 그림을 통한 오차의 등분산성을 찾아내는 데는 주관적이고 경험적인 판단이 필요한 경우가 많은데 이러한 점을 보완하는 통계적인 방법으로 스코어 검정(score test)을 실시. Cook과 Weisberg (1983)가 제안한 방법임. 잔차산점도로 충분히 진단이 가능한 경우에는 이러한 스코어 검정은 실시하지 않아도 무방함.

7.3 회귀모형의 선형성
- 모형의 비선형성 : 잔차산점도 이용


7.4 오차의 정규성
- 오차의 정규성 : 오차가 정규분포를 따른다는 가정.
- 회귀모형의 적합이후의 통계적 추론에 중요한 역할을 함.
- 정규성 가정 진단 : 잔차 또는 스튜던트화잔차의 정규성을 검토하는 정규확률그림(normal probability plot) 이나 Shapiro와 Wilk (1965)가 제안한 W통계량 이용.
- 정규확률그림 해석 : 만약 표본이 정규분포에서 얻은 것이라면 정규확률그림은 직선에 근접.

7.5 치료
분산안정을 위한 변환
- 오차의 등분산성 가정이 위배되는 경우 : 최소제곱법으로 추정된 추정량은 불편추정량의 성질은 만족시키지만 추정량의 분산이 커질 가능성이 높아짐.

이분산성 치료방법
1) 첫째 방법으로는 가중최소제곱법을 이용. 여기서 가중값은 분산의 역에 비례하도록 제공될 수 있는데 일반적으로 가중값은 경험적으로 채택됨. 같은 설명변수의 값에 대해 반응 변수의 값이 반복되는 자료인 경우에는 각 그룹 안에서 계산된 분산을 이용하여 가중값을 구할 수도 있다.
2) 둘째 방법으로는 등분산변환방법(variance stabilizing transformation) 이용. Y의 값이 양의 값이고 분산의 크기가 E(Y)에 의존하면 거의 모든 경우에 적절한 반응변수의 변환으로 분산의 변동을 안정시키고 등분산성의 가정을 만족시켜줄 수 있음.


선형으로의 변환
- 설명변수와 반응변수의 관계가 실제로 비선형인 경우에도 적절한 변환을 통하여 선형모형으로 문제를 해결할 수 있음.
- 양변에 로그를 취해 보거나 수학적인 변환을 이용하여 선형으로 변환하려고 노력한다.



제8장 모형 개발

8.1 다항회귀모형
- 단순회귀모형 : 독립변수와 종속변수 간에 직선적인 관계가 있는 경우에 사용
- 다항회귀모형 : 독립변수와 종속변수 간에 직선적인 관계가 아니고, 아래 산점도와 같이 곡선관계가 있는 경우 사용

모형식
1) 독립변수가 하나인 경우의 이차다항회귀모형


2) 독립변수가 두 개인 경우의 이차다항회귀모형식


3) 가변수를 이용한 회귀모형
- 독립변수에 이산형 변수가 포함되어 있는 경우


8.2 일반화 선형모형
- 선형모형의 일반화선형모형으로의 확장


8.3 로지스틱 회귀모형
- 로지스틱 회귀모형 : 반응변수가 질적변수인 경우에 효과적으로 이용되는 회귀모형.
- 독립변수가 연속 및 이산형이 포함되는 경우에 분류(classification) 에 효과적으로 이용됨.
- 반응변수가 두 가지 값을 갖는 경우의 로지스틱 회귀모형
- 로지스틱 함수: 종속변수 Y가 두 가지 값(0 또는 1)을 갖고, 독립변수 X 가 하나인 경우
- 주어진 X 에서 Y=1일 확률을 P( Y=1∣X)가 S형 곡선으로 X가 증가함에 따라 1에 수렴하고, X가 감소함에 따라 0으로 수렴할 때, 이와 같은 함수를 로지스틱 함수(logistic function)라 함.


선형화
- 로지스틱 반응함수를 P(Y=1∣X) = p 라 하면, ln (p/(1- p)) = β0+β1X을 통하여 선형화됨.
- 오즈(odds) : p/(1-p)
- 독립변수의 수가 두 개 이상인 경우의 로지스틱 회귀모형 :
ln(p/(1- p)) = β0+ β1X1 +β2X2 + .. + βpXp