JANGUN


통계학 개론


이 긍희 외



목차

제1장 데이터와 통계학
제2장 데이터 수치 요약
제3장 확률과 확률변수
제4장 확률분포와 표본분포
제5장 통계적 추정
제6장 통계적 가설검정
제7장 통계적 비교
제8장 통계모형 : 상관분석과 회귀분석
제9장 범주형 데이터의 분석


제1장 데이터와 통계학

통계학(statistics) : 관심대상에 대해 관련된 자료를 수집 요약 정리하고, 이로부터 불확실한 사실에 대한 결론이나 일반적인 규칙성을 추구하는 학문 (- 데이터 과학)
- 기술 통계학 (descriptive statistics) : 데이터를 대표하는 수치나 표, 그래프 등으로 요약하여 전체 특징을 파악하는 통계적 방법
- 추측 통계학 (inferential statistics) : 일부를 분석하여 관심 대상 전체에 관해 추측하고 일반화시키는 통계적 방법

통계학의 역사
- 이집트 (피라미드 건설을 위한 조사 : BC 3050, 최초의 토지 조사 BC. 2200), 중국 (인구조사 BC. 2300)
- De Moivre (1733, 정규분포 곡선 제안)
- Laplace (1783, 정규분포 공식제안)
- Gauss (1809, 정규분포를 천체운동이론에 적용)
- Darwin (1859, 유전 법칙을 통계적으로 설명)
- Mendal (1863, 통계적 유전법칙 발견)
- Galton (1889, 상관 회귀 개념 사용)
- Pearson (현대 통계학의 틀)
- Fisher (1930 유전체 연구, 1935 실험계획법)


통계학의 역할
- 데이터 수집 / 데이터 요약 / 데이터로부터 결론을 유도
- 생물통계학(Biostatistics), 경제통계학(Econometrics), 사회통계학(Sociometrics), 심리통계학(Psychometrics), 환경통계학(Environmetrics), 공학통계학(Technometrics)

주요 용어
- 모집단(population) : 관심 대상이 되는 모든 개체의 집합
- 표본 (sample) : 실제 조사되거나 측정되는 모집단의 일부
- 임의 추출법 (random sampling) : 모집단의 구성요소 하나하나가 표본으로 뽑힐 확률이 같은 상황에서 표본을 뽑는 방법
- 모수 (parameter) : 모집단에 대한 수치 특성 값, 분포의 특징을 나타내는 수치 (모평균, 모분산 등)
- 통계량 (statistics) : 표본에서 얻은 수치 특성 값

통계분석의 수행 과정
(1) 문제의 제기 : 우선 무엇을 밝히고자 하는지의 문제제기가 명확해야 한다.
(2) 모집단의 정의 : 문제제기에 의해 관심대상인 모집단을 정의하게 된다.
(3) 표본추출 : 모집단을 가장 잘 대표하는 표본을 임의추출법으로 뽑아 표본을 구한다.
(4) 자료 : 표본으로 부터 실제 관측을 통해 자료를 얻는다.
(5) 정보산출 : 자료를 각종 통계분석을 실시하여 정보화 한다.
(6) 의사결정 : 분석된 정보를 근거로 의사결정의 행동 및 조처를 취한다.


통계학의 적용과정
- 문제의 정의 : 밝혀서 규명하고자 하는 문제의 제기, 문제 제기에 의해 관심대상인 모집단을 정의
- 데이터 수집 : 모집단을 잘 반영하는 데이터의 수집(표본 추출, 임의 추출법)은 통계분석의 기초가 된다.
수집 과정 : 모집단의 정의 -> 조사 또는 실험의 계획 -> 데이터 수집
- 데이터의 정리/분석 : 도표나 그림을 이용하여 데이터를 정리(기초분석), 컴퓨터를 이용한 각종 통계 분석을 실시하여 정보화
- 분석결과 해석 및 의사결정 : 연구목적에서 제기한 질문에 대한 결론을 내린다.



제2장 데이터 수치 요약

데이터의 구분
- 단위(unit) : 관찰되는 항목이나 대상
- 관찰값(observation) : 각 조사 단위로부터 기록된 정보나 특성
- 변수 (variable) : 각 단위에 대해서 측정되는 특성
- 데이터(data) : 하나 이상의 변수에 대한 관찰값의 모음
- 원자료(raw data) : 표본에서 조사된 처음 자료
- 양적 데이터 : 수의 크기로 조사된 자료 (구간 척도 : 온도, 물가 지수 등 절대 0이 없이 상대적 비교 의미, 비율 척도 : 중량(무게), 길이 등 0의 의미 있음)
- 질적 데이터 : 특성에 의해 구분된 자료 (명목 척도 : 성별, 매체 유형 등 이름만 의미, 순서척도 : 만족도 등 어떤 기준에 따라 순서에 의미)
- 이산형 (discrete) 데이터 : 변수가 취할 수 있는 값을 하나하나 셀 수 있음
- 연속형 (continuous) 데이터 : 변수가 구간 안의 모든 값을 가질 수 있는 경우 (중량, 길이 등)
- 범주형 (categorical) 데이터 : 질적 변수로 측정되는 관찰값들

변수의 종류
질적 변수(qualitative variable) : 조사대상을 특성에 따라 범주로 구분하여 측정된 변수 -> 원그래프나 막대그래프
- 명목형(nominal): 변수가 크기나 순서에 대한 의미가 없고 이름만 의미를 부여할 수 있는 경우 (종교, 성별, 지지정당)
- 순서형(ordinal): 변수가 어떤 기준에 따라 순서에 의미를 부여할 수 있는 경우 (교육수준, 건강상태)
양적 변수(quantitative variable) : 길이, 무게와 같이 양적인 수치로 측정되거나 몇 개인가를 세어 측정하는 변수로 덧셈, 뺄셈 등의 연산이 가능 -> 점도표, 줄기-잎그림, 히스토그램, 도수분포표
- 이산형(discrete): 변수가 취할 수 있는 값을 하나하나 셀 수 있는 경우 (자녀수, 불량수)
- 연속형(continuous): 변수가 구간 안의 모든 값을 가질 수 있는 경우 (길이나 무게)

데이터에 대한 그래프 표현 : 원그래프, 막대그래프, 히스토그램 (도수분포표), 줄기-잎 그림, 점도표, 시계열 그래프

변수의 분포 : 어떤 변수가 취할 수 있는 가능한 전체 값에 대해 각 값이 발생할 수 있는 빈도를 표현한 것으로 그래프, 수치 또는 모형을 이용해서 요약한다.
사용되는 그래프의 종류는 변수의 유형과 그래프로 표현하는 목적에 따라서 달라진다.
- 질적 변수 : 수치척도로 측정되지 않고 범주로 측정된다. 원그래프나 막대그래프
- 양적 변수 : 점도표, 줄기-잎그림, 히스토그램, 도수분포표

- 도수분포표 : 데이터 각 값의 출현도수를 세거나 전체 데이터를 몇 개의 구간으로 나누어 각 구간에 속하는 데이터의 개수를 세어서 정리한 표
데이터의 개수, 최대값과 최소값, 계급의 수(계급의 폭)(도수가 5이하면 구간을 늘리자), 계급의 경계값과 중심값
- 원그래프(pie chart) : 전체를 구성하는 부분의 구성비를 나타낸다
- 막대그래프(bar graph) : 각 범주에 속한 비율을 하나의 막대로 나타낸다
- 히스토그램(histogram) : 작성된 도수분포표의 계급을 밑변으로 하고, 그 계급에 포함되는 데이터의 도수에 비례하는 면적을 가진 직사각형을 나열하여 작성한 그래프
-> 데이터의 중심위치 파악, 데이터의 산포 측정, 대칭성 확인, 봉우리 개수 파악, 특이점 유무 확인
- 줄기-잎 그림(stem-and-leaf plot) : 데이터의 수가 많지 않을 때 데이터의 분포를 빠른 시간 내에 쉽게 나타내는 방법으로 원래 값을 그대로 갖고 있다.
- 점도표(dot plot) : 실선 위에 데이터의 분포를 빠른 시간 내에 그릴 수 있는 간단한 그래프이다.
- 특이점(outlier, 이상치) : 대부분의 데이터가 모여 있는 군집(cluster)으로부터 멀리 떨어져 있는 데이터를 말한다. 원인 규명이 필요하다.
- 시계열그래프 : 관찰값이 시간의 변화에 따라 수집된 경우 시간의 흐름에 따라 또는 데이터가 수집된 순서대로 그래프로 표현한 꺾은선 그래프, 경향(trend)나 계절요인(seasonal variation)

도표와 그래프 작성 시 유의사항
그래프는 데이터만 보고는 파악할 수 없는 데이터 전체의 중요한 의미를 전달해 준다. 빠른 대화 방법, 강력한 의미 전달, 명확한 설명력, 흥미 유발
여러 유형의 데이터를 접할 때 데이터의 특징을 가장 잘 나타낼 수 있는 적합한 표나 그래프를 작성하는 것은 매우 중요하다.
통계분석을 위해서는 우선 수집된 데이터의 전체 경향(특이점, 분포형태(좌우대칭/치우침) 등)을 파악해야 한다.

데이터를 수치로 요약하는 것은 데이터가 내포한 정보를 효과적으로 전달하는 통계적 방법이다.
데이터의 중심위치(대표값)의 측정 :
- 평균(산술평균, 조화평균, 기하평균, 가중평균) : 무게 중심, 모든 데이터 반영, 이상치(특이점)에 민감, 유일성
- 중앙값(median) : 이상치에 영향을 받지 않는다. 중앙값을 중심으로 좌우 분포 면적이 같다
- 최빈값(mode) : 질적데이터 분석에만 사용 (양적데이터의 경우에는 사용하지 않음), 계산이 쉽고 존재하지 않을 수도 있다.
* 분포에 따라 대표값이 다를 수 있다.




데이터의 변동(산포) 측정 : 데이터가 얼마나 넓게 퍼져 있고 분포되어 있는가
- 범위 (range) : 최대값 – 최소값
- 분산 (variance) : 분산(표준편차)은 데이터가 평균을 중심으로 얼마나 광범위하게 분포하고 있는가를 나타내는 통계량이다.
- 평균 편차 (mean deviation)

- 사분위수 (interquartile range : IQR = Q3 – Q1, Q2 = 중앙값)

- 백분위수 (percentile : p%) : 전체 데이터 중에서 p%는 이 값보다 작고, (100-p)%의 데이터는 이 값보다 크게 되는 값을 의미한다. (Q3=75%)
- 상자그림 : 다섯 수치요약 (최소값, 1/3사분위수, 중앙값, 최대값 )
* step = 1.5*IQR = 1.5*(Q3-Q1)
(※ 안울타리 (inner fence) : Q1–1.5*IQR ~~ Q3+1.5*IQR / 바깥 울타리 = Q1-2*IQR ~~ Q3+2*IQR) - 특이점 검출


변이계수 (Coefficient of variation) (=표준편차/평균) : 표준편차를 평균으로 나눈 수 ( C = σ / μ * 100 (%))
- 두 개 이상의 데이터에 대한 퍼짐의 정도를 비교하기 위한 값으로 단위에 무관하다

왜도(Skewness) : 데이터의 치우친 정도를 나타내는 통계량으로 분포 개형이 왼쪽이나 오른쪽으로 치우쳐 있을 때 이를 수치로 구하는 것
- 왜도 = 3(평균 - 중앙치) / 표준편차



제3장 확률과 확률변수

확률의 정의
- 확률적 실험(통계적 실험) : 실험의 결과가 구체적으로 어떤 것인가는 알 수 없지만 전체 가능한 모든 결과들을 알고 있고 반복이 가능한 경우
- 표본 공간(sample space) : 통계적 실험이나 조사에서 일어날 수 있는 모든 가능한 결과의 모임
- 사건(사상, event) : 일어날 수 있는 모든 가능한 결과 중에서 특정한 성질을 갖는 결과의 모임
- 고전적 정의 : 표본 공간의 모든 원소가 일어날 가능성이 같다고 할 때, 사건 A가 발생할 확률은
(이산형) P(A) = 사건 A에 속하는 원소수 / 표본공간의 전체 원소수
(연속형) P(A) = 사건 A에 속하는 원소에 대한 측도 / 표본공간의 전체 원소에 대한 측도 (측도 : 길이, 면적, 부피 등)

- 상대도수적 정의 : 사건 A가 발생할 확률(P(A))은 같은 조건하에서 통계적 실험을 수 없이 반복 시행했을 때 사건 A가 발생하는 비율, 즉 상대도수이다.

- 공리적 정의 : 표본공간 S에서 임의의 사건 A에 대하여
1) 0 ≤ P(A) ≤ 1, P(S) = 1,
2) 서로 배반인 사건 A1, A2, .. 에 대하여 (배반사건 A ∩ B = Ф인 경우)
3) P(A1 ∪ A2 ∪ …) = P(A1) + P(A2) + … 를 만족할 때,
⇒ P(A)를 사건 A의 확률이라 한다.

확률의 계산
- 순열 : n개의 사물 중 r개를 선택하여 순서를 고려해 나열하는 방법의 수
nPr = n! / (n-r)!

- 조합 : n개의 사물 중 r를 순서를 고려하지 않고 추출하는 방법의 수
nCr = nPr / r! = n! / r! (n-r)!

- 여사건의 확률 P(Ac) = 1 – P(A)
- 합사상의 확률 계산 : P(A∪B) = P(A) + P(B) – P(A∩B)
- 배반 사건 : P(A∩B) = 0

- 조건부 확률 (conditional probability) : B 사건이 발생했다는 조건하에서 A가 발생할 확률
P(A|B) = P(A∩B) / P(B) (단, P(B) > 0) … P(B)가 표본공간이다
- P(A∩B) = P(B) · P(A|B) = P(A) P(B|A)
- 사건 A와 B가 서로 독립 사건 : P(A∩B) = P(A)·P(B), P(B|A) = P(B), P(A|B) = P(A) … 배반사건과 혼동하지 말자!!

확률변수(random variable) : (이산형 확률변수, 연속형 확률변수) 표본공간의 요소 하나하나에 숫자를 부여하는 변수 X


확률분포함수(확률질량함수) : 표본공간의 각 원소에 하나의 실수 값을 대응시켜 주는 함수, P(X=x)
- 특성 : 0 ≤ P(X=x) ≤ 1, ΣP(X=x) = 1, P(a < X ≤ b) = Σ(a<x≤) p(x)
확률분포 표 :


기대값 (평균, expected value) :

- E(aX + b) = a * E(X) + b


분산


표준화된 확률변수(Z) : 평균이 μ이고, 표준편차가 σ인 확률변수 X에 대하여 평균 0, 분산 1로 표준화시킴.
- Z = (X-μ) / σ
- 확률변수 Z의 평균은 0, 분산은 1이된다.



제4장 확률분포와 표본분포

확률분포 : 확률변수 X의 값에 따라 확률이 어떻게 분포하는지를 합이 1이 되도록 나타낸 것을 확률변수 X의 확률분포라 한다.

베르누이 시행 : 모든 가능한 결과가 두 가지이고, 이 실험이 반복되는 실험 (성공과 실패, 앞면과 뒷면, 합격과 불합격 등등)


이항분포(binomial distribution) : 각 시행에서 성공률이 p인 베르누이 시행을 n번 독립시행할 때 ~ N(n, p)
- X = 'n번의 베르누이 독립시행에서 얻은 총 성공 횟수'

- E(X) = np, Var(X) = np(1-p)

초기하분포 : N개인 모집단이 '1' 또는 '0', 성공 또는 실패 등으로 두 가지로 분류
- 확률변수 X = 전체 N개 중 1이 D개, 0이 N-D개로 구성된 유한 모집단에서 크리 n인 랜덤표본을 뽑을 때 1이 나오는 수
- P(X=x) = DCx·(N-D)C(n-x) / NCn
- E(X) = np, p = D/N
- Var(X) = np(1-p)·(N-n) / (N-1)

포아송(Poisson) 분포 : 일반적으로 매우 희귀하여 일어날 확률이 아주 작은 경우에 적용하는 분포
- 적용 조건 : 독립성, 비집락성, 비례성

- m : 단위당 평균 발생률 (평균 = 분산 )

정규분포(Normal Distribution)
- 평균을 중심으로 분포되어 있고, 분산에 의해 얼마나 평균에 집중되어 있는지가 결정되는 분포 ~ N(μ, σ2)

- 함수의 수식은 프랑스 수학자 드무아브르(1667~1754) 발견, 독일의 수학자 가우스(1777~1855)에 의해 물리학과 천문학에 응용
- 종모양의 연속함수, 평균에 대해 서로 좌우 대칭이다. - 정규분포의 표준화 (요즘은 컴퓨터의 발달로 표준화할 필요성이 떨어진다.)
- Z = (X – μ ) / σ : N (μ, σ2) ~ N (0, 1)



통계적 추론(statistical inference) : 모집단에서 일부를 추출한 표본을 이용하여 모집단에 관한 추측이나 결론을 이끌어 내는 과정
- 모수 (parameter) : 모집단의 특성 값. 예, 모평균, 모비율, 모분산 등
- 통계량 : 표본으로부터 계산되는 함수식,
- 랜덤표본 : 모집단에서 랜덤하게 추출된 일부로 서로 독립이며 동일한 분포를 따름
- 표본추출변동 : 통계량은 다른 표본이 추출되면 다른 값을 갖게 되는 확률변수로 확률분포를 갖는다.

표본분포 (sampling distribution) : 표본 통계량의 분포
- 표본평균 분포 : 정규 모집단 N(μ, σ2)으로부터 추출한 랜덤표본의 표본평균의 분포는 정규분포 N(μ, σ2/n)을 따른다.

- 중심극한정리 : 임의의 모집단에서 n이 충분히 크면 (n > 30), 표본평균은 정규분포를 따른다.

이항분포의 정규근사 : 이항분포 B(n, p)를 따르는 확률변수 X는 n이 충분히 클 때 근사적으로 평균이 np, 분산이 np(1-p)인 정규분포 N (np, np(1-p))를 따른다.

T분포 : 통계학자 William Sealy Gosset(1876~1937)이 스튜던트라는 필명으로 발표 (1907) ~ 스튜던트 t-분포
- 모분산을 모르는 경우에 모평균에 대한 추론은 표준화된 표본평균에서 모표준편차 대신에 표본표준편차를 대입하여 얻어진 스튜던트화 된 표본평균을 사용한다
- 0에 대해서 좌우대칭이며, 자유도 n이 커지면 표준정규분포에 가까워짐 - 정규분포 N (μ, σ2)으로부터의 확률표본이고, 표준편차(σ)를 모를 때 표본표준분산 S 를 사용할 때는 표본평균의 분포는 정규분포를 따르지 않고 t-분포를 따른다.

- n이 커지면 표준정규분포에 가까워 진다. (n : 자유도)

※ 중심극한 정리와 같이, n이 30이상으로 크면.. 정규분포를 따른다.

표본의 평균보다 분산이 더 중요할 경우 : (품질, 공정 관리)
- 표본 분산의 표본 분포는 카이제곱 분포에 따른다.
카이제곱분포 : 모분산을 추정할 때 사용한다.
- 표본 분산의 표본분포는 카이제곱 분포를 따른다. 정규 모집단에서 모분산의 구간 추정 및 검정에 이용된다.






제5장 통계적 추정

통계학
- 우리 주위의 현상에 대한 데이터를 수집하여 요약
- 조사된 결과로부터 일반성을 찾아냄
- 이를 근거로 불확실한 사실에 대한 결론이나 예측 ~ 통계적 추론

데이터의 특성 파악 (기술통계학)
- 표본 평균, 표본 분산, 히스토 그램
- 데이터를 요약, 정리하는 것만으로 판단의 세계 (진리의 세계)로 들어가는 데에는 한계가 있다.

통계추론이란 그 모집단으로부터의 표본에 근거하여 모집단에 대한 정보를 알아내는 과정이다. 추정(estimation)과 가설검정(testing)으로 구분된다.
- 그 모집단으로부터의 표본에 근거하여 모집단에 대한 정보를 알아내는 과정이다.
추정 : 표본으로 모집단에 대한 결론을 도출
- 추정량 : 모수를 추정하기 위한 표본의 함수인 통계량
- 모수 : 모집단의 분포 관련 수치 특성값
- 첨추정 : 모수에 대해 하나의 추정값만 제시하는 추정
- 구간추정 : 모수 추정값과 더불어 정확도(precision)를 함께 제시
- 신뢰수준 : 모수의 참 값이 속할 것으로 기대되는 구간 안에 모수가 포함될 가능성을 나타낸 확률

통계적 추론의 구조
- 모집단(진리의 세계) : 알고 싶은 관심대상의 모든 개체의 관측값의 집합 (시간, 비용 등의 제약이 있어서 알기 어려움)
- 표본 (모집단의 일부) : 모집단에서 표본을 임의로 추출하여 모집단을 추측
- 모집단은 하나의 값으로 되어 있는 확정적이지 않고 불확실하다 (모집단의 변수들은 특정한 확률분포를 따른다.)
- 확률 분포 : 몇 개의 모수를 바탕으로 작성된 수리적 함수 (이항분포, 정규분포 등)
- 통계량 : 표본의 함수로 모수를 추정하는데 사용되는 값 (표본평균, 표본비율, 표본분산 등)
- 추정량 : 모수를 추정하는데 이용되는 통계량
- 추정값 : 추정량에 관측값을 대입하여 얻은 추정량의 값
- 추정량의 분포 : 추정량은 표본추출결과에 따라 변함 ~ 표본 분포(sampling distribution)
- 추정량과 표본 분포

통계적 추론 : 추정과 검정
- 추정 : 표본으로부터 모집단에 대한 결론을 도출
- 검정 : 모집단에 대한 추정의 타당성을 표본을 통해 검정 (표본으로부터 나타나는 증거가 우연인지 아닌지 점검)
- 점추정 : 모수에 대해 하나의 추정값만 제시
- 구간추정 : 모수가 포함되리라고 기대되는 범위로 추정 (모수 추정값과 더불어 정확도를 함께 제시)
- 모수 θ에 대해서 두 통계량 (L, U) : θ의 (1-α)100%의 신뢰구간
P( L < θ < U) = 1-α
바람직한 추정량 : 평균적으로 모수에 근접하고 그 밀집도가 높은 추정량
- 불편성 : 모든 가능한 통계량 값의 평균 = 모수 (표본평균은 모평균의 불편추정량)
- 일치성 : 표본의 크기가 커질수록 추정량의 값과 모수가 더 가까워짐 (표본평균의 분산은 표본의 크기가 커지면 0이된다.) 즉 표본평균은 모평균에 근접한다.
- 효율성 : 추정량 중 분산이 작은 것을 의미한다.


- 미지의 모수를 가지는 모집단의 분포에서 가상의 확률표본을 추출 ~ 이를 바탕으로 추정량을 찾게 됨
- 표본의 모든 정보는 결합확률밀도(질량)함수인 가능도 함수에 있음 ~ 최대 가능도 추정법
- 그 외에 적률추정법과 최소제곱추정법이 있다.

모집단의 평균 μ의 점추정
- 모집단의 관심 있는 정보 : 확률분포의 중심인 모평균 μ
- 표본평균, 표본평균의 불편성, 표본평균의 분산 :


- 분산은 효율성을 나타낸다. n이 커질수록 효율성이 증대된다. 즉, n이 커질수록 밀집된 결과를 얻는다.
- 대수의 법칙 : n이 무한대로 커지면 표본평균은 모평균으로 수렴한다.
- 중심극한 정리 : n이 무한대로 커지면서, (모집단이 어떤 분포를 따르는 지 상관없다)


표본평균의 분포
- n개의 확률표본을 추출하면, 표본평균은 평균이 μ이고, 분산이 σ2/n인 정규분포를 따른다.
- 표본평균의 점추정 및 상한, 하한을 95% 신뢰수준에서 모평균을 추정한다.

- 모평균 μ의 95% 신뢰구간은 :


- 모표준편차를 알 수 없으면, 모표준편차 σ도 추정하여 사용하는데, 보통 표본표준편차 S를 이용한다.
- 표본표준편차를 이용하면, 모평균은 정규분포가 아닌 t-분포를 따르게 된다.
- t-분포를 따를 때, 모평균의 100(1-α)% 신뢰구간 (t분포의 t값은 표나 프로그램을 이용한다.)


모평균 μ에 대한 100(1-α)% 신뢰구간
- (1-α) x 100은 신뢰수준(confidence level) : 95%, 99%가 이용됨
(구간이 클수록 그 구간 안에 모수가 포함될 가능성이 큼)
- 표본수가 클 때 t분포가 아닌 정규분포를 이용한다. 즉, t값 대신 z값을 이용함.
- 95% 신뢰구간의 의미 : 모집단에서 표본을 100번 반복하여 추출한 후 모평균에 대한 95% 신뢰구간을 각각 구했을 때 구해진 100개의 신뢰구간 중 95개가 모평균을 포함함을 의미한다.


모집단에서 n개의 표본을 뽑았을 때, 찬성자 수 X는 이항분포 B(n, p)를 다른다.
- 모집단의 찬성비율 p를 추정해보자
- 표본 비율, 표본비율의 특징, 모비율 p의 100(1-α)% 구간 추정 :


모집단의 분산 추정
- 제품의 균질성, 금융시장의 변동성, 시험의 난이도 등을 파악
- 표본분산은 모분산의 불편 추정량이다.
- 표본분산의 분포는 카이제곱 분포를 따른다.
- 모분산의 100(1-α)% 신뢰 구간



제6장 통계적 가설검정

통계적 가설검정은 두 개의 가설을 설정하고, 두 가설 중 어느 가설이 적당한지 파악하는 것이다.
- 귀무가설 (H0) : 차이 또는 유의성이 없음을 나타내는 가설. 기존의 가설 (초능력은 없다, 피고인이 무죄이다)
- 대립가설 (H1): 관심이 이쓴 사건에 유의성이 있음을 나타내는 가설, 밝히고자하는 가설 (초능력이 있다, 피고인이 유죄이다)
- 가설을 세우고 가설을 입증하기 위한 데이터를 수집하고 가설검정에 적합한 도구인 검정통계량값을 구한 후 귀무가설하의 검정통계량의 분포와 비교하여 유의수준을 고려하여 최종판단을 하게된다.
- 통계적 의사결정의 원리 : 확실한 근거가 있기 전에는 대립가설을 선택하지 않고 귀무가설을 받아들인다
- 대립가설 채택 : 귀무가설을 기각 (대립가설이 참이라는 확실한 근거가 있음, 통계저으로 ‘유의성이 있다’고 표현
- 귀무가설 채택 : 귀무가설을 기각시키지 못함 (대립가설이 참이라는 확실한 근거는 없음)


- 제1종 오류 : 귀무가설이 참인데 이를 기각하는 오류, 무죄인데 유죄로 판단
- 제2종 오류 : 대립가설이 참인데 귀무가설을 기각하지 못하는 오류, 유죄인데 무죄로 판단

- 하나의 오류를 줄이면 다른 오류가 커지는 상충관계
- 귀무가설을 ‘과거나 현재의 사실’로 두고 ‘확실한 근거가 없는 한 귀무가설을 채택‘하는 결정방식을 취한다.
(중요한 1종 오류의 최대 한계를 정한 다음 제2종 오류를 줄이게 된다.)

- 유의수준 : 제1종 오류를 범할 최대 허용 한계 (확률), 5%, 1% 등
- 유의수준(α) 5% : 100번 검정 시행 중 5번은 귀무가설이 옳은데 기각하는 오류를 범한다는 의미
- 검정력 (1-β) : 제2종 오류가 발생할 확률은 표본크기에 의해서 조절한다. 틀린 귀무가설을 기각하여 귀무가설의 잘못을 찾아내는 확률

가설검정의 원리
- 유의확률 : 귀무가설이 참이라고 생각하고 구해진 관측값보다 벗어날 확률
- 유의확률이 유의수준보다 크다면 귀무가설이 참이라는 가정이 적절하다고 판단
- 유의확률이 유의수준보다 작다면 귀무가설이 참이라는 가정이 적절하지 않다고 판단
- 기각역 : 유의수준에 따라 검정통계량의 분포상에서 기각되는 영역
- 귀무가설을 기각하는 관측값의 영역인 기각역을 검정통계량의 분포와 유의수준을 바탕으로 정함
- 통계량 값과 기각역을 비교하여 귀무가설 기각여부를 결정

가설검정과정
1. 통계적 가설 (H0, H0)을 세운다.
2. 유의수준 α를 정한다.
3. 귀무가설하에서 검정통계량이 따르는 분포를 정하고 계산한다.
4. 앞서의 분포를 바탕으로 유의수준에 해당하는 검정통계량값인 기각역을 찾거나, 통계량 값과 관련된 확률(유의확률)을 구한다.
5. 앞서 구한 통계량 값을 기각역과 비교하거나 유의확률을 유의수준과 비교하여 가설검증을 실시한다.

모평균의 가설검정
- 통계적 가설검정은 표본평균의 표본분포와 관련된 기준값(critical value) C를 선정하고
- ‘X가 C보다 작으면 귀무가설을 채택하고, 아니면 귀무가설을 기각(대립가설을 채택‘ 한다.


유의확률 : 가설이 기각되지 못한 근거의 정도 (관찰된 표본평균의 값을 기준값으로 하였을 때의 제1종 오류 확률을 계산)
- 유의확률은 측정된 표본평균이 모든 가능한 표본평균 중에서 어디에 위치하고 있는지를 알려줌
- 유의확률은 더 클수록 기각되지 못한 강력한 근거가 됨

모평균의 가설검정은 표본평균을 표준화한 통계량 T값을 이용한다.



모비율의 가설검정 : 검정통계량은 근사적으로 정규분포를 따름.
- Z 값을 이용하여 모비율 가설을 검정한다.



모분산의 가설검정
- 제품의 품질이 높아졌는가? 성적의 분산이 작년보다 작아졌는가? 등의 가설 검정
- 검정통계량의 분포 : 자유도가 (n-1)인 카이제곱분포



가설검정과 구간추정 간 관계
- H0 : θ = θ0 : 유의수준 α에서 채택역
- θ에 대한 100(1- α)% 신뢰구간 :
- 유의수준 α에서 |T| < t(n-1, α/2)이면, 귀무가설을 기각하지 못함
- 즉, 귀무가설을 기각하지 못하는 영역은 다름 아닌 모평균의 (1- α)x100% 신뢰구간이 된다.



제7장 통계적 비교

두 모집단의 평균을 비교하는 문제는 현실적으로 많이 접하는 문제이다.
- 서로 독립된 추출(독립표본) vs 짝지어진 표본

통계적비교 : 두 모집단의 평균을 비교하는 문제로 두 모집단의 평균의 차가 0인가, 크거나 작은가 등을 검정한다.
- 모집단에서 추출된 표본이 서로 독립적 추출된 경우(독립표본)와 아닌 경우(대응표본)에 따라 다르다.
- 금년도 대졸사원의 초임이 남녀별로 차이가 있을까? (독립표본)
- 두 생산 라인에서 생산되는 제품의 무게에 차이가 있을까? (독립표본)
- 타자속도를 증가시키기 위해서 타자수에게 실시한 특별교육이 과연 타자속도의 증가를 가져왔을까? (대응표본)

두 독립표본의 평균 비교 : 두 모집단이 정규분포를 따르고 모분산이 같다는 가정하에 두 모평균의 차이가 얼마라는 가설에 대한 검정한다
- 모집단에서 서로 독립적으로 표본을 추출했을 때 모평균의 차 μ1 – μ2 ( = D0 )의 추정량은 표본평균의 차이며,
- 모든 가능한 표본평균의 차는 표본이 충분히 클 경우 근사적으로 평균이 이고, 분산이 ( σ12 / n1 + σ22 / n2 )인 정규분포를 따르게 된다.
- 여기서 두 모집단의 분산은 대개 알려져 있지 않므으로 분산의 추정값을 이용하여 검정해야 하는데, 두 모분산이 같은 경우와 다른 경우 검정방법이 차이가 난다.
- D0 : 모평균 차이에 대한 값을 의미
- 두 모집단이 정규분포를 따르고 모분산이 같다는 가정하에 두 모평균의 차이가 라는 가설에 대한 검정에서는 다음 통계량 공식을 사용한다.
- Sp2 은 모분산의 추정량으로 S12과 S22의 표본크기에 가중치를 주어 모분산을 추정한 것으로 공통분산이라 한다.



- 만일 두 모집단의 분산이 다를 경우 모집단이 정규분포를 따르더라도 검정 통계량 T는 t분포를 따르지 않는다. - 이때는 표의 선택기준에서 대개 근사적으로 자유도 Φ인 t분포를 이용하여 가설검정한다. (새터스웨이트 방법)

대응표본의 평균 비교
- 독립적으로 추출했을 때 각 표본개체의 특성이 너무 차이가 나서 결과분석이 무의미할 때가 있다. (예, 타자수에게 타자속도 교육 후 효과 검증)
- 대응비교 (paired comparison) : 서로 독립적이지 않은, 비슷한 성질의 대응표본을 사용하여 두 모집단의 평균을 비교하는 가설 검정
- 대응비교일 때는 n쌍의 차를 계산해서 평균과 표준편차를 구한다.
- 대응표본의 차, 평균, 분산 :



두 모분산의 가설검정
- 두 모집단의 분산을 비교하는 경우에는 분산의 차이를 비교하지 않고, 분산의 비를 계산한다.
- 이 분산비가 1보다 큰가, 작은가, 같은가를 알아보면 분산의 크기를 알 수 있다. (이유 : 수학적 용이성)
- F 통계량을 사용



실험결과에 영향을 주는 무수히 많은 요인 중에서 실험에서 직접 취급되어 관리되는 요인을 요인 또는 인자라고 하고, 요인의 조건을 요인수준이라 부른다.
실험계획법 : 실험을 합리적으로 설계하는 방법.
- 실험을 통해 얻은 데이터에 대해 의미 있는 통계분석을 하려면 요인의 각 수준에서 실험단위의 배정 또는 실험순서를 임의로 배정하는 랜덤화를 구현해야 한다.

분산분석 (ANOVA) : 시험계획법에서 가장 많이 사용되는 분석 방법 (영국의 통계학자 피셔)
- 특성값의 변동을 제곱합으로 나타내고, 이것을 시험과 관련된 요인의 제곱합과 오차의 제곱합으로 분해하여 오차에 비해 영향이 큰 요인이 무엇인가를 찾아내는 분석방법이다.
- 각 요인의 제곱합을 그 요인의 자유도로 나누면 그 요인의 평균제곱이 되는데, 이 값이 오차의 분산에 비하여 얼마나 큰가를 검토하게 된다.
- 만약 어떤 요인의 평균제곱값이 오차의 분산보다 매우 크다면 그 요인은 특성값의 변동을 유의하게 설명해 주는 요인이라 할 수 있다.
- 독립변수들의 수준을 조절한 다음 조절된 독립 변수들의 각 수준 또는 둘 이상의 독립변수들의 수준 조합에 따라 제 각각 측정되는 하나 이상의 반응치에 대한 효과를 분석하는 연구
- ST = SA+SE, VA = SAA, VE = SE/ ΦE ⇒ F = VA/VE로 F가 크면 요인 A가 오차요인에 비해 통게적으로 유의한 영향을 준다고 할 수 있다.


일원배치법 (one-way factorial design)
- 어떤 관심이 있는 특성값에 대하여 하나의 요인(factor)의 영향을 조사하기 위하여 쓰이는 실험계획법이다.
- 예) 어떤 공정의 수율을 변환시키는 요인 중 반응온도라는 한 요인만을 선택하여 관심있는 3개의 수준에서 수율의 모평균 간에 차이가 있는가에 대해 검토
- 완전확률화법 : 다른 요인의 영향을 상쇄하기 위해 반복수가 모든 수준에 대해 같지 않아도 분석할 수 있다. 실험 실시의 순서를 랜덤하게 결정해야 한다

- 반복수가 모든 수준에 대해 같지 않아도 됨. (결측값이 생길 수 있음)
- 요인의 특정 수준에서 더 높은 정도를 얻기 위해 추가적인 실험을 할 수도 있음.
- 실제 데이터 분석에서는 A의 수준에 따른 평균 xi가 다른지 여부를 검정하게 된다.

- 일원배치법 데이터 배열 표에서, A 인자의 수준 : l, 실험의 반복 m에서

- Ai 수준에서의 j번째 데이터 xij는 Ai 수준에서 특성값의 모평균 μi를 중심으로 오차 εij를 가진 변량으로 일반화하면,

- 오차항 εij는 N(0, σ2E)를 따르고 서로 독립적이다. 또 실험 전체의 모평균은


- αi는 수준 i에서 모평균 μi가 전체 모평균 μ로부터 어느정도 다른지 나타내는데, 이것을 요인 A의 주효과라고 한다.
- 주효과 αi의 합은 항상 0이 된다.


- 정리하면,


분산분석표의 작성 데이터 xij 와 총평균값의 총편차는 다음과 같이 둘로 분해할 수 있다.
측정값과 각 수준의 평균값의 편차는 측정할 때 수반되는 측정오차이나 실험기구가 갖고 있는 본질적인 부정확성을 나타내는 오차이고, 다음으로 각 수준의 평균값과 총편균값의 편차는 각 수준에서의 효과 크기를 나타내 준다.

ST = SA + SE

ST : 식에서 좌변을 총제곱합 또는 총변동
SA : 우변의 첫쨰 항은 각 수준의 효과 차이로 인한 변동이므로 A의 변동
SE : 우변의 둘째 항은 각 수준 내에서의 편차의 제곱합이므로 오차 변동

제곱합을 요인별로 분류하여 분산분석표 작성
- 자유도는 제곱을 한 편차의 개수에서 선형제약조건의 수를 빼서 구할 수 있다.
- 통상 요인의 자유도는 요인수준에서 1을 차감한 값이 되며,
- 총변동의 자유도는 총실험회수에서 1을 차감한 값이 된다.
- 오차의 자유도는 총변동의 자유도에서 요인의 자유도를 차감하여 구한다.
- 평균제곱 = 제곱합 / 자유도
- F 통계량은 평균 제곱 VA와 VE의 비로 계산되는데, 이것을 통하여 가설을 검정하게 된다.


귀무가설 H0 : μ1 = μ2 = … = μl
대립가설 H1 : μi가 모두 같지는 않다.

또는

귀무가설 H0 : α1 = α2 = … = αl = 0
대립가설 H1 : αi가 모두 0은 아니다.

일원배치법의 분산분석표
- F 값이 매우 커지면 요인 A에 의한 변동이 오차에 의한 변동보다 커지므로 요인 A의 변동이 유의하다고 판단함.
- F 통계량은 귀무가설 하에서 자유도 ΦA, ΦE 인 F분포를 따름
- 따라서 F 통계량 값이 F > F(ΦA, ΦE; α)이면 유의수준 α에서 귀무가설이 기각된다.
- 이 경우 요인 A가 유의하다고 하고, A요인의 수준의 모평균 간에는 유의한 차이가 존재한다고 할 수 있다.

모평균의 추정
- 분산분석표의 F 검정에 의하여 요인수준 간에 유의한 차이가 있다고 인정되는 경우 수준별 모평균과 2개 수준 간 모평균의 차이를 추정하거나 특성값을 최적으로 하는 요인수준을 발견할 필요가 있다.
- 각 수준에서의 모평균 (μi = μ+αi )의 추정
- i 수준에서 m개의 데이터 xij는 정규분포 N(μi , σ2E )에서 언더진 크기 m의 확률표본이라 볼 수 있다.
- 따라서 μi 의 바람직한 추정량은, 100(1- α)% 신뢰구간은


각 수준의 모평균차의 추정과 검정
- 요인 A의 두 수준 i와 i`에서의 모평균 차이는 요인 A의 수준효과의 차이
- 최소유의차(LSD) : 두 수준 간 모평균의 차이가 유의하려면 표본평균의 차이가 (7.23)을 만족해야 한다.


이원배치법 : 문제가 되는 요인을 두 개 취하여 행하는 실험
- 예) 시멘트의 압축강도가 소성온도와 소성시간의 영향을 알아보고 싶을 때
- 일원배치법에서는 문제가 되는 요인으로 하나만을 취하고, 요인으로 취급되지 않았던 여러 가지 조건을 일정하게 한 후 전체를 랜덤화하여 실험했다.
- 이원배치법이란 문제가 되는 요인을 두 개 취하여 행하는 실험이다.
- 문제가 되는 요인을 두 개 취하여 행하는 실험으로 실험은 완전랜덤화하여 실시해야 된다.
- 분산분석표를 작성하여 F 검정만으로 데이터의 분석이 끝나서는 실험계획법에 의한 데이터의 활용이 충부하다고 볼 수 없다.
- 반드시 분산분석 후에 각종 추정을 하고 분석결과를 최적조건의 선정에 응용할 수 있도록 해야 한다.

- 데이터 구조 : A 요인의 수준수가 l이고, B 요인의 수준수가 m인 반복없는 이원배치법


- 자료 배열


- 이원배치법 분산분석표




- 만약 F = VA / VE ≥ F(ΦA, ΦE ; α) 이면, A요인의 효과가 없다고 판단, 즉 귀무가설 H0 : α1 = α2 = … = αl = 0이 유의 수준 α에서 기각된다. - 만약 F = VB / VE ≥ F(ΦB, ΦE ; α) 이면, B요인의 효과가 없다고 판단, 즉 귀무가설 H0 : β1 = β2 = … = βm = 0이 유의 수준 α에서 기각된다.
- 모평균의 추정
분산분석표를 작성하여 F 검정만으로 데이터의 분석이 끝나서는 실험계획법에 의한 데이터의 활용이 충분하다고 볼 수 없다.
반드시 분산분석 후에 각종 추정을 하고 분석결과를 최적조건의 선정에 응용할 수 있어야 한다.
- 요인 A의 모평균의 추정

- 요인 B의 모평균의 추정

- 두 요인의 수준을 조합한 조건에서의 모평균과 분산의 추정
식 (7.35)의 우변의 분모(ne=lm / (l+m-1))를 반복이 없는 이원배치법의 유효반복수라고 함

- 여기서 μ(αi , βj)의 100(1- α)% 신뢰구간은



제8장 통계모형 : 상관분석과 회귀분석

두 변수 이상의 데이터를 조사하고 요약, 정리할 때 변수 간의 관련성 또는 인과관계 등을 규명할 필요가 있다.
상관분석 (correlation analysis) : 두 변수 간의 상호의존 관계가 있을 경우 이 관계가 어느 정도 밀접한가를 측정하는 분석 방법
회귀분석 (regression analysis) : 변수 간의 함수적 관련성을 구명하기 위하여 어떤 수학적 모형을 가정하고, 이 모형을 측정된 변수의 데이터로부터 추정하는 통계적 분석방법이다.

상관분석(correlation analysis) : 두 변수 간의 상호의존 관계가 있을 경우 이 관계가 어느 정도 밀접한가를 측정하는 분석 방법
- 산점도(scatter plot) : 두 변수 간의 상관성을 시각적으로 확인할 수 있다. 한 변수의 값을 X축으로 하고 다른 변수의 값을 Y축으로 한 그래프


- 공분산(covariance, Cov(x,y)) : 두 변수 간의 관계 정도를 구체적인 수치로 나타내 주는 측도


표본상관계수 : 변수의 종류나 특정 단위에 관계없는 측도로 표본공분산을 표본표준편차로 나누어 표준화시킨 것이다.

~ -1에서 +1의 값을 가지며, 단지 두 변수의 선형관계만을 나타내는 측도이다.
~ +1에 가까울 수록 강한 양의 선형관계를, -1에 가까울수록 강한 음의 상관관계를 나타내며, 0에 가까울수록 선형관계를 약해진다
~ 단지 두 변수의 선형관계만을 나타내는 측도이다.


회귀분석(regression analysis) : 변수 간의 관계를 나타내는 수학적 모형을 설정하고, 변수로부터 측정된 값을 이용하여 모형을 추정하고, 변수 간의 관계를 설명하고 예측하는 통계적 분석방법이다.
- 변수 간의 함수적 관련성을 구명하기 위하여 어떤 수학적 모형을 가정하고, 이 모형을 측정된 변수의 데이터로부터 추정하는 통계적 분석방법이다.
- 회귀식 : 변수 간의 관계를 나타내는 수학적 모형
- 종속변수 (반응변수), Y : 다른 변수에 의해 영향을 받는 변수
- 독립변수 (설명변수), X : 종속변수에 영향을 주는 변수


단순선형회귀모형 :
- 한 개의 독립변수로 이루어진 회귀식
- 독립변수의 일차 방정식, 회귀직선, 회귀계수(절편 α과 기울기 β) (8.1)


- 회귀식에는 선형방정식으로 설명할 수 없는 오차항이 포함됨 : (8.2)
- 관측치 X, Y가 정확한 선형관계를 가지고 있더라도 관측값에는 측정오차가 있을 수 있고, 실제로 Y와 X가 정확하게 선형관계를 형성하지 않을 수 있기 때문
- 오차항은 평균이 0, 분산이 σ2인 서로 독립인 오차를 나타내는 확률변수
- 미지의 모수 α, β, σ2 을 포함하므로 이것을 모집단 회귀모형이라 부른다.
- 추정된 회귀계수를 a와 b로 나타내면, 표본회귀식 (8.3)
- 예측된 값을 Y의 실제 관측된 값과 일치할 수 없는데, 이 두 값의 차이를 잔차(residual)이라 하고 ei로 표시 (8.4)

회귀계수의 추정 : 회귀직선은 Y의 값을 추정할 때 발생하는 오차인 잔차들을 가장 작게 해줄 수 있는 식으로 선택하게 된다.
- 최소제곱법 : 적합한 회귀식에서 계산된 예측값과 관찰값의 차이인 잔차들의 제곱의 합이 최소가 되도록 회귀계수를 추정하는 방법
- 잔차의 제곱합 (8.5)
- 식 8.5에서 a와 b에 대해서 각각 편미분하여 0으로 놓고 a와 b에 대해 풀면, 식 8.6을 얻는다.
- 식 8.6 (정규방정식)의 해 a, b를 α, β의 최소제곱추정량이라 하며, 다음과 같이 식 (8.7)주어진다.


- 여기서 b의 분모와 분자를 n-1로 나누어 주면 b = SXY / SXX로 쓸 수 있고, 상관계수를 이용하면 식 8.8이 된다.

회귀직선의 적합도 : 회귀직선을 추정한 후에는 그 회귀식이 얼마나 타당한가를 검토해야 한다. 즉 종속변수를 독립변수가 얼마나 잘 설명하는지를 알아보야한다.
- 추정의 표준오차 : 관측값들이 추정회귀직선의 주위에 흩어져 있는 정도, 오차항의 분산 σ2 의 추정량이 된다. 값이 작을수록 좋다.

(표준오차는 단위에 의존한다는 단점, 변수의 종류와 단위와 관계없이 사용할 수 있는 상대적측도가 필요하다)

회귀 분석
- 분산분석에서와 같이 회귀분석에서도 다음과 같은 제곱합과 자유도의 분할이 성립한다.

- 결정계수 : 반응변수들이 가지는 총변량 중 회귀직선에 의해 설명되는 변량의 비(ratio). 변수의 종류와 단위에 관계없이 사용할 수 있는 상대적 측도이다
- 제곱합과 자유도의 분할 : SST (총변동) = SSR (설명되는 변동) + SSE (설명되지 않는 변동, 오차제곱합)
- SST에서 SSE가 차지하는 부분이 작으면, 또는 SSR이 차지하는 부분이 크면, 추정된 회귀모형의 적합도가 높다고 할 수 있다.
- 결정계수 (R2 = SSR / SST) : 0과 1의 값을 가진다. 값이 1에 가까울 수록 표본들이 회귀직선 주위에 밀집되어 있음을 뜻하고, 회귀식이 관측값들을 잘 설명하고 있다는 뜻이다.

회귀의 분산분석 :
- 세 가지 제곱합을 자유도로 나누면 각각은 일종의 분산이 되므로, 제곱합의 분할을 이용하여 회귀분석과 관련된 문제를 다루는 것
- SST를 자유도 (n-1)로 나누면 Y의 관측값의 표본분산, SSE를 자유도 (n-2)로 나누면 오차의 분산인 σ2 의 추정량 s2이 된다.


- F비는 ‘가설 H0 : β = 0, H1 : β ≠ 0'의 검정에 사용된다.
- 오차항에 대한 가정이 성립하고 오차장이 정규분포를 따르면 귀무가설 하에서 F비는 자유도 1과 (n-2)의 F분포를 따른다.
- F0 > F1,n-2, α 이면 H0 : β = 0 을 기각한다.
- 통계패키지에서는 유의확률을 계산하여 주므로 이것을 이용하여, p값이 유의수준보다 작으면 귀무가설을 기각한다.

회귀분석에서의 추론 :
- 모집단 회귀모형의 오차항은 평균이 0이고 분산이 σ2 인 정규분포를 따른다는 가정하에서 회귀계수 α, β 와 그 외 모수에 대해 추론할 수 있다.




각 모수에 대한 추론은 모두 모집단 회귀모형에 포함된 오차항에 대한 몇 가지 가정을 바탕으로 하고 있다.
따라서, 타당한 추론을 하려면 이 가정들이 성립되어야만 한다.

잔차분석(residual analysis) : 오차항은 관측될 수 없는 값이기 때문에 일종의 추정량인 잔차를 이용하여 이 가정의 타당성을 조사
가정의 타당성은 일반적으로 잔차의 산점도를 이용하여 조사하는데, 산점도들이 잔차들이 0을 줌심으로 특정한 경향을 보이지 않고 랜덤하게 나타나면 각 가정이 타당함을 의미한다.

회귀분석에서의 가정 -> 타당성 점검 방법
- 가정된 모형 yi = a+bxi+ei 는 옳다 -> 잔차 대 독립변수의 산점도
- 오차의 평균값은 0이다 -> 잔차 대 관측순서의 산점도
- (등분산성) 모든 잔차의 분산은 σ2 으로 동일하다 -> 잔차 대 예측값의 산점도
- (독립성) 오차들은 서로 독립이다 -> 잔차 대 관측순서의 산점도
- (정규성) 오차들은 정규분포를 따른다 -> 잔차들의 히스토그램을 작성하여 정규분포의 모양과 비슷한지를 보아 타당성을 조사 또는 정규확률도를 이용

중선형회귀분석 : 하나의 종속변수와 여러 개의 독립변수 사이의 관계를 규명하는 통계적 방법
- 독립변수가 2개 이상 포함된 중회귀모형으로 행렬과 벡터를 이용하여 단순선형회귀분석과 동일한 방법으로 할 수 있다
- 최소제곱법으로 회귀계수를 추정할 수 있다.


- 편회귀계수 : 추정계수는 종속변수와 하나의 설명변수 간 상관관계를 나타내기 보다는 다른 설명변수가 고정되었을 경우 종속변수와 하나의 설명변수 간 상관관계를 의미한다.
- 수정된(조정된) 결정계수 : 회귀모형의 설명변수로 계속 추가하면 결정계수가 1로 수렴하므로 중선형회귀분석에서는 수정된 결정계수를 이용


- 잔차의 분산과 종속변수의 분산을 이용한다.
- 회귀직선의 적합도(타당성)을 조사하기 위해 추정의 표준오차와 결정계수가 사용된다


- 중선형회귀분석에서의 추론



제9장 범주형 데이터의 분석

범주형 데이터 : 모집단이나 측정결과를 어떤 속성에 따라 분류시켜 도수로 주어지는 데이터
- 범주형 데이터 분석 : 데이터를 특정 변수가 갖는 속성에 의해 몇 개의 군으로 나누고, 이것들이 독립적인지 데이터들이 이론적 분포와 일치하는가 등을 분석하는 것

분할표(contingency table) : 변수들의 속성에 따라 분류된 전체 데이터의 빈도표 (일원분할표, 이원분할표)
- 성, 지역 등 질적 데이터나 몇 개의 수준이나 순위로 구성되어 있는 순서 데이터의 분석에서 유용하다.
- 두 변수가 있을 때 두 변수가 서로 독립인지 아닌지에 대한 검정
- 한 변수의 표본분포가 어떤 이론분포와 일치하는지 검토


독립성 검정 : 분할표에서 변수들의 확률을 구하여, 확률의 독립성을 만족시키는지 검증하는 방법 (식 9.1)
- 귀무가설은 변수 A와 B는 독립이다.
- 대립가설 : 변수 A와 B는 관련이 있다. (독립이 아니다.)
- 카이제곱분포를 이용 (식 9.2) : 여기에서 r은 행변수값의 수이고, c는 열변수 값의 수
- 주의: 독립성 검정에서 카이제곱분포를 이용하려면 모든 기대도수가 적어도 5이상이어야 한다. 5보다 작은 기대도수는 인접구간을 합쳐서 분석하는 것이 바람직하다


적합도 검정 : 관찰된 도수가 정규분포 또는 이항분포 등의 이론분포와 일치하는가를 검정하는 것으로 이론분포에 의해 기대도수와 관찰도수가 얼마나 일치하는가를 평가한다.
- 관찰도수와 이론분포로부터의 기대도수를 그래프화하여 눈으로 점검
- 관찰도수와 기대도수의 차이에 대한 카이제곱통계량 이용

- 귀무가설 H0 : (p1, p2, …, pk) = (p10, p20, …, pk0) (이론분포와 일치한다.)
- 대립가설 H1 : 적어도 하나의 pi는 가정된 pi0와 다르다.

- 선택기준 : 관찰된 도수가 (O1, O2, …, Ok)일 때 기대도수가 (E1, E2, …, Ek) = (np10, np20, …, npk0)이므로 유의수준 α일 때,
- 식 (9.3)을 만족하면 귀무가설 기각. 여기에서 k는 변수값의 수이다.