JANGUN


통계학의 개념 및 제문제


지음 : 이 긍희 외



목차

제1장 통계추론의 기초 개념
제2장 통계학과 확률
제3장 모집단의 분포
제4장 표본분포
제5장 점추정
제6장 점추정량의 비교
제7장 가설검정
제8장 구간추정
제9장 베이지안 추정과 검정


제1장 통계추론의 기초 개념

1. 통계학이란?
- Kendall and Stuart (1969) : 자연 현상의 성질을 측정한 데이터를 다루는 학문
- Grenander and Miller (1994) : 데이터에 포함된 정보를 이해하는 방법
- Keeping (1962) : 예측할 수 없이 변동하는 변수에 대한 학문
- Chernoff and Moses (1959) : 불확실한 상황에서 의사결정과 관련된 학문
- Cox (2004) : 변동성, 불확실성과 불확실성 하에서의 의사결정과 관련된 학문
- Savage (1977) : 불확실성에 대한 학문
~ 불확실성, 불완전성, 변동성을 포함한 데이터로부터 지식을 일반화하고 효율적으로 사용할 수 있도록 하는 학문
~ 통계학 개론의 통계학 정의 : 우리 주위의 현상에 대한 수량적 결과인 데이터를 수집하여 요약하고, 관심대상인 집단에 대해 조사된 결과로부터 일반성을 찾아내고 이것을 근거로 불확실한 사실에 대한 결론이나 예측을 하는 데 필요한 이론과 방법을 제시하는 학문
~ 통계학은 사회, 자연, 인간생활 등의 불확실성이 내포된 다양한 현상을 연구하기 위하여 데이터의 선택, 관찰, 분석, 추정을 통하여 의사결정에 필요한 정보를 얻고 처리방법을 연구하는 학문이다.
~ 어떤 성질이나 요소별로 측정하거나 조사하고 분류하여 정리하면 그 현상 전체의 공통적인 법칙이나 규칙성을 찾아낼 수 있다. 즉, 데이터에서 내재된 규칙을 발견할 수 있다. 이것이 통계학의 개념이며, 이러한 과정을 통계적 분석이라고 한다.

통계분석 대상은 다음과 같은 조건에 맞아야 한다.
- 대상은 항상 구체적으로 현실에 존재하는 것이어야 한다.
- 관심현상은 변수로 나타낼 수 있어야 한다.
- 현상은 유동적이며 변동성이 있어야 한다. 즉, 결과가 하나밖에 없는 기정 사실이어서는 안 된다.
- 유동성과 변동성에는 규칙성과 일반성이 있어야 한다.

정보 통계학 또는 데이터 과학(Statistics is the Science of Data)이라고도 말한다.
- 기술 통계학 : 데이터를 대표하는 수치나 표, 그래프 등으로 요약하여 전체 특징을 파악하는 학문
- 추측 통계학 : 일부를 분석하여 관심 대상 전체에 관해 추측하고 일반화시키는 학문. 모든 예측이나 결론은 확률을 기본 개념으로 불확실성의 정도를 나타낸다.

2. 용어 정리
- 모집단(population) : 관심 대상이 되는 모든 개체의 집합 (무한모집단 / 유한모집단), 확률변수의 값에 따른 확률분포를 가진다. 특정한 수학함수의 형태를 띤 확률분포를 따른다고 가정함
- 모집단의 불확실성 : 확률과 확률분포로 표현된다.
- 확률 : 0과 1 사이의 값으로 사건이 발생할 가능성을 표현
- 표본 (sample) : 실제 조사되거나 측정되는 모집단의 일부. 모집단을 정확히 정의해야만 표본을 뽑을 수 있다.
- 임의 추출법 (random sampling) : 모집단의 구성요소 하나하나가 표본으로 뽑힐 확률이 같은 상황에서 표본을 뽑는 방법. 모집단을 잘 대표할 수 있는 표본을 뽑는 대표적 방법
- 모수 (parameter) : 모집단에 대한 수치 특성 값, 분포의 특징을 나타내는 수치 (모평균, 모분산 등), 모집단이 변화하지 않는다면, 고정된 값이다.
- 통계량 (statistics) : 표본에서 얻은 수치 특성 값 (평균, 중앙값, 분산 등등), 가상 표본의 함수, 표본 분포, 모수에 대한 정보를 효율적으로 파악하려고 데이터를 요약하는 것이다.
- 표본분포(sampling distribution) : 통계량의 분포
-> 모집단의 확률분포와 통계량의 표본분포 간에는 일정한 관계가 있다.

- 추론 : 알고 있는 증거로부터 일정한 결론을 도출하는 방법,
- 귀납적 추론 : 다수의 관측을 통해 결론에 도달하는 방법, 통계학의 기본 원리
- 연역적 추론 : 증명된 명제로부터 논리적 형식을 적용, 새로운 결론을 이끌어 내는 방법, 수학의 기본 원리

- 통계추론 : 모집단에서 뽑은 표본의 정보(통계량값)를 이용, 모수를 추측, 표본만으로 완전한 추론이 어려우므로 확률로 불완정성 표현
- 통계추론의 이론적 부문 - 연역적 추론
- 데이터를 이용한 통계분석과정 - 귀납적 추론

- 추정 : 표본의 자료로 모집단에 대한 결론은 도출. 점추정과 구간추정
- 검정 : 모집단에 대한 주장의 타당성을 표본을 통해 점검 (표본에서 나타나는 증거가 우연한 것인가 아니면 모집단에 실제로 존재하는가?”의 점검)
- 수리통계학(이론통계학) : 통계추론과 관련 있는 통계학으로 확률이론과 추론이론으로 구성된다.


3. 통계추론의 구조
- 확률변수(random variable) : 표본공간의 사건을 숫자로 바꿔주는 함수.
- 모집단은 확률변수의 값에 따른 확률분포를 가진다. 다시 말해서, 확률변수(X)의 모집단은 모수(θ)를 바탕으로 한 확률분포를 가진다.
- 모집단의 확률분포 : 특성값인 모수를 포함한 수학 함수 형태를 띰. 모수를 알면 그 확률분포를 알 수 있으며 표본을 바탕으로 추측할 수 있다.

- 확률변수(X)의 모집단 : 모수(θ)를 바탕으로 한 확률분포
- 확률분포 : 확률밀도함수 f(x|θ)에 의해 결정 (예) 확률변수 X ~ N(μ, σ2)
- 표본추출 : 모집단에서 가상 표본을 뽑는다고 가정, 가상 표본은 서로 독립이고 모집단의 분포와 동일한 분포를 가지는 확률표본

- 가능도 원리(likelihood principle) : 표본의 결합확률밀도함수 가능도함수에 표본으로부터 나타날 수 있는 모수의 모든 정보를 가지고 있다는 원리
- 충분성 원리(sufficiency principle) : 표본을 요약한 통계량이 모수의 정보를 잃지 않을 수 있다는 원리

- 불편성(unbiasedness) : 평균적으로도 표적지 중심에 있는 것
- 효율성(efficiency) : 표적지 중심에 밀집되어 있는 것
- 평균제곱오차 : 모수와 추정량 차이의 함수인 소실함수의 기대값. 평균제곱오차를 최소화하는 통계량이 유용한 추정량
- 모집단이 정규분포를 따르는 경우 표본평균은 모평균을 추정하는 데 있어 불편성과 효율성을 모두 갖춘 통계량


4. 통계검정
- 기존의 가설(귀무가설) 하의 통계량 분포를 도출
- 통계량 값이 가정하는 가설에서는 일어나기 어려운 값 : 가설이 타당하지 않음
- 최적의 검정 : 주어진 제1종 오류의 일정기준 하에서 제2종 오류를 최소화하는 검정
- 통계추론의 방법 :
- 빈도론자(frequentist)에 의한 추론 : 고정된 모수를 무한히 반복되는 표본에 대한 통계량의 표본분포를 바탕으로 추정하거나 검정, 공정성
- 빈도론자의 비판 : 베이지안의 결과가 모수의 사전분포에 의존해서 결과가 일정하지 않고 계산시간이 많이 든다고 비판

- 베이지안(Bayesian)에 의한 추론 : 표본확률에 사전확률을 더한 사후확률로 추정. 모수는 확률분포를 가짐, 유연성
- 베이지안의 비판 : 빈도론자는 주어진 정보를 활용하지 않아 올바른 추정에 어려움이 있다고 비판
- 최선의추론은 빈도론자와 베이지안의 원리를 모두 적용하고 종합적으로 접근해야 한다.
베이지안의 유연한 모형접근과 빈도론자의 공정한 모형 평가 방법을 혼용해야 한다.

- Lindley (2000)의 통계추론을 다음의 5개 영역으로 구분함
1. 통계학은 불확실성에 대한 학문
2. 그 불확실성은 확률로 측정
3. 데이터의 불확실성은 모수 조건 하에서 측정
4. 모수의 불확실성은 확률에 의해 측정 : 포함 여부에 따라 베이지안의 추론과 빈도론자의 추론이 구분된다. (베이지안은 포함시킴)
5. 추론은 확률분포(모형)에 의해 이루어진다.

1.7 통계학의 역사 : 통계학의 기원은 군주나 왕들이 다스리는 성 또는 나라를 대상으로 세금을 부과하기 위하여 가축의 수나 작물의 작황량을 조사했고, 전쟁에 대비하여 청장년의 인구수를 조사한 것에서부터 현재의 인구센서스나 시장조사가 시작되었다고 할 수 있다. 즉, 통계적 사고와 분석은 다양한 분야에서 데이터의 수집과 분석에 관심이 높아지면서 점차 발전되어 왔다.

- 17세기
프랑스 파스칼(1623~1662), 페르마(1601~1665) : 현대 확률이론의 기초, 확률에 수학이론을 도임 (1654)

- 18세기 천문학과 수학에서 통계학 발달
스위스의 베르누이(1654~1705) : 대수의 법칙 (1713)
프랑스의 드무아브르 (1667~1754) : 확률이론을 통계학에 결합. 이항분포의 확장으로 정규분포의 이론적 기초, 정규분포 곡선 제안(1733), 포아송 근사(1712) 정규분포 확률밀도하수(1738)

프랑스 라플라스(1749~1827) : 정규분포 공식 제안(1783), 역확률을 이용한 추론(1774)
독일의 가우스(1777~1855) : 정규분포 오차에 최소제곱법 활용, 정규분포를 천체 운둥이론에 적용(1809)

- 19세기 : 기계론적 사고관(뉴턴 물리학), 측정오차와 불확실성
통계학은 농학, 행동과학 등의 분야에서 근본적인 질문에 대한 답을 데이터에 근거하여 유도하고, 나아가 학문적으로 이론을 세우는 데 필요한 분석도구가 되었다.
영국의 찰스 다윈(1809~1882) : 유전의 법칙을 통계적으로 설명 (1859)
오스트리아 멘델(1822~1884) : 통계적 유전법칙 발견 (1863), 유전학의 수학적 토대
영국 프랜시스 Galton (1822~1911) : 인류학자, 다윈의 외손자, 통계학과 우생학의 아버지, 통계학의 개념을 생물학에 응용하는 데 기여, 아버지와 아들의 키 분석 (회귀분석 1885, 상관계수 1888)

- 20세기 : 확률적 세계관 (양자역학), 불확실성은 확률로 측정된다.
영국의 칼 피어슨 (1857~1936) : 통계적 방법을 생물학에 응용, 통계학의 학문으로서의 틀을 세움, 적합성 (카이제곱)검정(1900). 현대통계학의 시작, 4개의 적률(평균,분산, 왜도, 첨도)
영국의 윌리엄 고셋(1876~1937) : 스튜던트 검정 (1908), 표본수가 작으면 어떤 분포를 가지는지에 대해 관심(t분포) "평균에 담긴 오차"(1908)
영국의 피셔 (1890~1962) : 통계학 이론의 기초를 마련, 유전체 연구(1930), 실험계획법(1935), 상관계수분포 (1915), 분산분석(1918), 최대가능도 추정량, 유의성 검정, 충분성, 일치성, 효율성(1922)
네이만, 이곤 피어슨 : 가설검정이론, 검정의 원리 정리(증명)

콜모고로프 : 확률의 공리화 (1933) ~ 0과 1사이로, 모두 합하면 1, 서로 배반일 때 확률의 합은 더하기.
레비, 린드버그 : 중심극한정리 증명 (1934)
네이만 : 신뢰구간(1937)
왈드 : 순차적 추정이론(1947)

※ 베이지안의 역사
베이즈(1702~1761) : 베이즈 정리 증명(1763)
새비지(1917~1971), 린들리(1923~) : 현대 베이지안 통계학




제2장 통계학과 확률

1. 확률의 필요성
19세기 : 기계론적 세계관 (뉴톤 물리학)
- 과거의 일의 결과로 미래의 일이 결정된다고 생각,
- 오차 : 세계를 측정할 때마다 결과가 다르게 나오는 불확실성, 측정오차 문제로 인해 우리가 알고자 하는 세계인 모집단에 대한 불확실성 인식

20세기 : 확률적 세계관 (양자 역학)
- 세계를 더 이상 기계적으로 볼 수 없고, 불확실성을 감안하여 살표보아야 한다, 불확실성의 측정 - 확률
- 확률 : 확률은 17세기 파스칼과 페르마의 도박 문제 해결과 관련한 연구로 시작
- 통계추론은 불확실한 사실에 대한 결론이나 예측에 필요한 이론과 방법이므로 반드시 확률의 이해 필요

2. 확률의 정의
- 통계추론 : 모집단에서 표본을 뽑아 모집단 특성을 추정 또는 검정
- 모집단 : 불확실하고 알 수 없음 – 표본추출(실험)로 파악
- 확률적 실험(통계적 실험) : 실험의 결과가 구체적으로 어떤 것인가는 알 수 없지만 전체 가능한 모든 결과들을 알고 있고 반복이 가능한 경우
- 확률실험의 규칙성
- 표본공간(sample space) : 통계적(확률적) 실험이나 조사에서 일어날 수 있는 모든 가능한 결과의 집합
- 사건(event, 사상) : 표본공간의 한 부분집합, 일어날 수 있는 모든 가능한 결과 중에서 특정한 성질을 갖는 결과의 집합

확률 : 통계적 실험에서 한 사건이 발생하는 가능성
- 확률의 고전적 정의 : P(A) = n(A) / n(S) or P(A)= m(A) / m(S)
- 고전적 정의 : 사건의 집합 / 표본 공간의 집합 (또는) 사건A에 속하는 원소에 대한 측도 / 표본공간의 전체 원소에 대한 측도
- 상대도수적 정의 : 수없이 반복 시행했을 때, 사건이 발생하는 비율 (상대도수)
- 공리적 정의(콜모고로프(A. N. Kolmogorov, 1903~1987) : 확률이 0과 1사이의 숫자를 갖고, 전체 합이 1이고, 서로 배반일 때, (합집합=덧셈) 성립하면 확률이다.


확률의 계산
- 순열 : nPr = n!/(n-r)!, 0!=1 (정의)
- 조합 : nCr = n!/r!(n-r)!

확률의 덧셈법칙: P(A∪B) = p(A)+P(B)-P(A ∩ B)
확률의 곱셈법칙: P(A ∩ B) = P(A)*P(B|A) = P(B)*P(A|B)
독립사건: P(B|A) = P(B), P(A ∩ B) = P(A)P(B)
배반사건: P(A ∩ B) = 0
여사건: P(Ac) = 1 - P(A)
P(A ∩ B) ≥ P(A)+P(B)-1

3. 확률의 계산
- 표본공간 S : B1, B2, … Bm으로 분할
- P(A) = ∑ P(A∩Bi)
- P(A) = P(A ∩B) + P(A ∩Bc)

조건부 확률 : P(B)가 0이 아니면 사건 B가 발생하였다는 조건 하에서 사건 A가 발생할 조건부 확률로 B는 새로운 표본공간이 된다.
- P(A|B) = P(A∩B)/P(B)
- P(A∩B) = P(A|B) P(B)
- 표본공간 S : B1, B2, … Bm으로 분할, P(A) = ∑ P(A∩Bi) = ∑ P(A|Bi) P(Bi)
- P(A) = P(A ∩B) + P(A ∩Bc) = P(A|B) P(B) + P(A|Bc) P(Bc)

역확률
- P(B|A) = P(A|B) P(B) / P(A) = P(A|B) P(B) / [P(A|B) P(B) + P(A|Bc) P(Bc) ]

베이즈 정리 :
- 표본공간을 B1, B2, ... 로 나눌 수 있고, 사건 A가 발생하였다는 정보가 주어졌을 때, Bi의 조건부확률
- 원인(B)에서 결과(A)에 이르는 확률로부터 결과(A)에서 원인(B)을 역추정을 할 수 있는 기반 제공 (역확률)
- 라플라스(P. S. Laplace, 1749~1827)는 원인의 확률이 사전에 균등하게 주어졌을 때 베이즈 정리의 특수한 경우를 정식화

독립 : 사건 A에 대한 정보로부터 사건 B에 대한 정보를 얻을 수 없는 경우
- P(B|A) = P(B) or P(A*B)=P(A)*P(B)
- 독립성 : A와 B는 서로 독립 ⇔ P(A ∩B) = P(A) P(B)


4. 확률변수(random variable) : 표본공간의 각 원소에 하나의 실수값을 대응시켜 주는 함수
- 표본공간을 정의역으로, 실수를 공역으로 하는 함수이다
- 사건을 숫자로 변환해 주는 함수
- 확률적 실험에서 실험결과를 관심의 대상이 되는 수 값으로 나타낸 것
- 확률분포 : 확률적 실험의 규칙성으로 각 값 또는 구간의 확률을 가진다. 확률변수 X로부터 유도되는 확률측도 P를 X의 확률분포라고 한다.
- 누적확률분포함수 : (cumulative distribution function) : 확률변수의 값이 증가하는 데에 따른 누적확률, P(X'<'x), 확률변수 X의 구간으로부터 유도되는 확률분포
- F(x) = P(X≤x) = P(-∞, x), F(- ∞) = 0, F(+ ∞) = 1, 비감소함수(증가함수), 오른쪽 방향으로 연속

확률분포함수(probability distribution function) : 확률변수(X)의 값에 대한 확률, P(X=x), 확률변수 X의 분포를 결정하는 함수
- 이산형(확률질량함수) : f(x) = F(x)-F(x-1) = P(X=x), x=0,1,2... F(x) = P(X'<='x)
- 연속형(확률밀도함수) : 연속형 확률변수 X의 분포를 결정하는 함수, 적분을 이용함


5. 결합확률밀도(질량)함수 : 확률변수가 2개 이상일 때
- 여러 개의 확률변수가 동시에 관측되면, 여러 개 확률변수에 대한 분포는 결합확률밀도(질량)함수로 파악
- 주변부(marginal) 확률밀도(질량)함수 : 결합확률밀도(질향)함수를 한 확률변수로 적분(합)하여 다른 한 확률변수의 확률밀도(질량)함수의 분포
- 결합확률밀도함수의 성질



* 실험관측 - (결과인식) - 표본공간 - (수치대응) - 확률변수 - (확률대응) - 확률분포

6. 조건부확률밀도함수
- 확률변수 X, Y : X=x의 조건하에서 Y의 조건부확률질량(밀도)함수 (fX(x) > 0)
- 이산형
- 연속형

- 성질


7. 기대값
확률변수의 확률분포를 살펴보면 복잡해서 이를 통해 모집단을 요약하기 어렵다. 모집단의 분포에서 관심 있는 것은 모집단의 중심과 변동성이다.

- 기대값(평균) : 확률분포의 무게 중심
- E(x) = (확률변수 x * 확률분포함수 f(x) )의 합 또는 적분, 확률분포의 무게 중심(균형점)
- 이산형 : E(x) = ∑ x f(x)
- 연속형 : E(x) = ∫ xf(x) dx

- 확률변수의 함수 g(X)의 기대값은, E[g(x)] = ∑ g(x) f(x) = ∫ g(x) f(x) dx
- 조건부 기대값
- 기대값의 성질


8. 분산과 표준편차
분산 : 모집단이 모집단의 중심(기대값)으로부터 얼마나 흩어져 있는지를 측정하는 지표
- Var(X) = E[X-E(x)]2 = E(X2) – [E(x)]2

표준편차 : 확률변수와 단위 일치
- Sd(x) = Var(x) 1/2
- 표준화된 확률변수(Z) : Z = (X-m)/s, 평균이 0이고, 분산이 1인 분포로 만들어 생각한다.
- 하나의 확률변수에 대해서는 그 확률분포의 중심과 변동성에 관심을 가지지만 두 변수가 있다면 그 관계에 관심이 있다.

9. 공분산 : 두 확률변수가 같이 변하는 정도의 측도
- Cov(X, Y) = E[X-E(X)] E[Y-E(Y)] = E(XY) – E(X)E(Y)
- 공분산이 양(+)의 값을 가지면 두 확률변수가 같이 움직이는 경향이 있고, 음(-)의 값을 가지면 두 확률변수가 반대로 움직이는 경향이 있다고 판단한다.
- 공분산이 0이면 두 확률변수 간에는 선형적인 상관관계가 없다고 판단한다. (일반적인 상관관계가 없다고는 할 수 없다.)


상관계수 : 공분산을 표준화(두 변수의 표준편차로 나누어줌)하여 두 확률변수의 선형관계를 파악
- 값의 범위 : -1 ~ +1
- Corr(X, Y) = Cov(X,Y)/[S(X)S(Y)]

공분산과 상관계수의 성질


확률변수 간 독립성
- 두 확률변수 간 독립성은 : f(x, y) = fX(x) * fY(y)
- 두 확률변수가 독립이면, Cov(X, Y) = 0, Corr(X, Y)=0, V(X+Y)=V(X)+V(Y)
- 역은 성립하지 않는다. 즉, Cov=0이어도 두 변수가 독립이 아닐수 있다.

독립된 확률변수의 성질


10. 적률생성함수
- 적률생성함수 : 모집단의 주요 정보인 적률을 생성하는 함수
- 확률변수의 적률(moment, E(Xk))은 모집단의 주요 정보를 나타낸다.
- M(t) = E(exp(tx))

- k차 적률 : E(X^k) = d^kM(t)/dt^k|t=0
- 1차 적률은 평균, 2차 적률은 분산, 3차 적률은 왜도, 4차 적률은 첨도라 한다.



제3장 모집단의 분포

모집단: 표본공간의 모든 사건에 따라 분포. 모집단은 확률변수의 값에 따른 확률분포를 가진다.
확률분포 : 확률변수의 값에 따라 확률이 어떻게 분포하는 지를 합이 1이 되도록 나타낸 것, 특성값인 모수를 바탕으로 한 수학적 함수 형태

이산형 확률변수 :
- 확률질량함수 : f(x) = P(X=x), x=0, 1, 2, …
- 베르누이분포, 이항분포, 포아송분포, 기하분포, 초기하분포, 음이항분포

연속형 확률변수 :
- 확률밀도함수 : F(x) = P(X≤x) = ∫ f(t) dt (-∞ ~ x)
- 연속형 균등분포, 지수분포, 감마분포, 정규분포, 베타분포, 로그정규분포, 와이블분포, 코쉬분포


베르누이 분포
- 베르누이(1654~1705, 스위스) 시행 : 모든 가능한 결과가 두 가지이고, 이 실험이 반복되는 실험
- 성공과 실패, 동전의 앞면과 뒷면, 합격과 불합격, 불량품 여부, 찬성 여부
- 0과 1의 수를 사용, 실패(F)와 성공(S)을 표기
- p = P(X=1), q = P(X=0) = 1-p
- X ~ Ber(p) : f(x) = P(X=x) = px(1-p)1-x, x=0, 1
- 기대값 : E(X) = p
- 분산 : Var(X) = p(1-p)
- 적률생성함수 : M(t) = E(etX) = (1-p) + pet

이항분포
- 각 시행에서 성공률이 p인 베르누이 시행을 n번 독립시행할 때의 성공할 확률변수의 분포
- 확률변수 X : n번 반복해서 던졌을 때 동전의 앞면이 나온 총 횟수
- X ~ B(n, p) : f(x) = nCx px (1-p)n-x, x=0, 1, 2, …, n
- 이항정리 : ∑ nCx ax bn-x = (a+b)n
- ∑ f(x) = ∑ nCx px (1-p)n-x = [p + (1-p) ]n = 1
- 확률질량함수의 그래프 : n이 50이 넘으면, p의 값의 상관없이 대칭인 그래프가 된다. n이 크면 정규분포로 근사된다 … 중심극한정리
- E(x) = np
- V(X) = np(1-p)
- M(t) = E(etX) = ∑ etx f(x) = ∑ etx nCx px (1-p)n-x = ∑ nCx (pet)x (1-p)n-x = [(1-p) + pet ]n … (이항정리 이용)
- 베르누이 분포 : 이항분포 B(1, p)
- 이항분포 : 베르누이분포를 따르는 n개의 확률표본의 합

초기하분포 : 모집단의 크기 N, 1의 개수 D에서 크기 n인 표본을 뽑을 때 1이 나오는 확률변수의 분포
- 모집단의 수가 무한히 커지면 이항분포로 다시 표현될 수 있다.

포아송 분포
- 특정 기간 또는 영역에서 일어나는 사건 수의 분포
- 일반적으로 매우 희귀하여 일어날 확률이 아주 작은 경우에 적용하는 분포
- 교통사고 사망자 수, 한 시간 동안 전화통화수, 이항분포에서 반복횟수 n이 충분히 크고, 성공률 p가 0에 가까울 정도로 작은 분포이다.
- 포아송 (1791~1840, 프랑스 수학자), 이항분포의 확률을 근사적으로 구할 때 유용하게 쓰인다.
- 평균까지의 확률이 증가하고 그 이후에는 감소하는 형태를 띤다.
- 포아송 분포는 이항분포의 확률을 근사적으로 구할 때 유용하게 쓰인다.

- 독립성 : 한 단위시간이나 공간에서 출현하는 성공횟수와 중복되지 않는 다른 단위시간이나 공간에서 출현하는 성공횟수는 서로 독립이다
- 비집락성 : 극히 작은 시간이나 공간에서 둘 또는 그 이상의 성공이 같이 일어날 확률은 매우 작으며 0으로 간주한다.
- 비례성 : 단위시간이나 공간에서 성공의 평균출현횟수는 일정하며, 이는 시간이나 공간에 따라 변하지 않는다

- X ~ Poisson(λ)
- f(x) = P(X=x) = λxe / x!, x=0, 1, 2 (λ>0)
- 이항분포에서 n이 크고 p가 작으면서 np= λ 일 때 분포

- 일정기간에 발생한 희귀한 사상의 발생건수에 대한 분포
- 기대값 : E(x) = λ
- 분산 : V(x) = λ
- M(t) = exp[ λ(exp(t)-1) ]

연속형 균등분포
- 지하철이 3분 간격으로 일정하게 온다고 가정, 지하철을 1분 이내로 기다릴 확률은?
- 확률변수 X : a분과 b분 사이 기다리는 시간
- X ~ U(a, b) : 확률변수가 구간 [a, b]에서 각 값을 가질 가능성이 같을 때의 분포
- 확률밀도 함수 f(x) = 1 / (b-a) , a<x<b
- 기대값 : E(X) = (a+b) / 2
- 분산 : V(x) = (b-a)2 / 12


지수분포
- 어떤 사건의 발생이 포아송분포를 따른다는 가정하에서 어떤 사건이 첫 번째로 발생할 때까지 소요되는 대기시간 T의 분포를 나타낸다.
- 어떤 사건 X의 발생 : 포아송분포 Poisson(λt)
- 확률변수 T는 특정시간부터 다음버스가 올 때까지의 대기시간을 나타내므로 확률변수 T는 연속형 확률변수이다.
- P(T ≤ t) = P(X ≥ 1)
- 대기시간이 t보다 작다는 것은 그 시간 동안 도착대수가 1대 이상임을 의미한다.

- 포아송분포 : 어떤 사건이 발생
- 지수분포 : 사건이 첫 번째로 발생할 때까지 소요되는 대기시간 T의 분포
- T ~ Exp(λ)
- 지수 분포의 망각성 : P( X ≥ a+b | X ≥ a) = P( X ≥ b)
- 어떤 사건이 발생할 때까지의 대기 시간 X는 처음의 a시간만큼의 대기시간에서 사건 발생 여부와 관계없이 추가적인 시간과 분포가 관련되어 있다는 것이다.


감마분포 : 어떤 사건 x의 발생이 포아송분포 Poisson()를 따를 때, 사건이 r번째로 발생할 때까지 대기시간의 분포
- 어떤 사건 X의 발생 : 포아송분포 Poisson(λt)
- 사건이 r번째로 발생할 때까지의 대기시간 T의 분포
- r번째 사건이 발생할 때까지의 대기시간이 t보다 작다는 것은 그 시간 동안 그 사건이 r번 이상 나타났음을 의미한다.
- T ~ Gamma(r, λ) : 감마분포는 모수 r과 람다에 따라 그 모양이 바뀐다.
- P(T ≤ t) = P( X ≥ r)
- 지수분포 : Gamma(1, λ)
- 카이제곱분포 : Gamma(r, 1/2)


정규분포
- 일반적인 사건의 분포, 프랑스 수학자 드무라브르에 의해 발견, 독일 가우스에 의해 넓리 퍼짐
- 독일의 수학자 가우스가 물리학에서 오차의 이론을 연구하는 과정에서 제시한 분포이다.
- 라플라스는 표본평균이 정규분포에 근사한다는 중심극한정리를 증명하면서 정규분포의 유용성을 보였다.
- 정규분포를 따르는 확률변수를 표준화한 후 제곱하면 그 확률변수는 카이제곱분포를 따른다. -> 감마분포와도 연결됨
- 중심극한정리 : 표본수가 커지면 모집단의 분포에 관계없이 표본평균은 정규분포로 수렴한다.

- 정규분포는 평균과 분산으로 그 형태가 결정된다
- X ~ N(μ, σ2)
- 확률밀도 함수
- 표준정규분포 : 표준 0, 분산 1인 정규분포 Z ~ N(0, 1) , Z = (X-μ) / σ
- 누적분포함수




제4장 표본분포

표본조사 : 모집단 전체를 조사하는 것이 불필요하거나 불가능 할 때
- 표본 : 모집단의 일부
- 표본을 이용해 모집단의 모수를 추정
- 모수를 추정하려면 모수추정에 적합한 확률표본의 함수인 통계량(statistic)을 고려해야 한다. 대표적인 통계량으로는 표본평균과 표본분산이 있다.
- 통계량도 확률변수라 할 수 있고, 나름의 확률분포를 가진다.
- 통계량의 분포를 특히 표본분포(sampling distribution)이라 한다.

통계적 추론(statistical inference) : 모집단에서 일부를 추출한 표본(통계량)을 이용하여 모집단(모수)에 관한 추측이나 결론을 이끌어 내는 과정이다.
- 확률변수 X의 모집단 : 모수 θ를 바탕으로 한 확률분포, 확률질량(밀도)함수 ~ f(x|θ)
- 표본추출 : 모수 θ를 추정
- 확률표본 : 표본은 서로 독립이고 동일 분포
- 통계량 : 모수추정에 적합한 확률표본의 함수
- 표본분포 : 통계량의 확률분포
- 표본평균과 표본분산 : 모집단의 평균과 분산을 추정하는 데 적합하다.

- 표본추출변동 : 통계량은 다른 표본이 추출되면 다른 값을 갖게 되는 확률변수로 확률분포를 갖는다.
- 표본분포 (sampling distribution) : 표본 통계량의 확률분포, 표본은 서로 독립이고 동일 분포
- 표본평균 분포 : 정규 모집단 N(μ, σ2)으로부터 추출한 랜덤표본의 표본평균의 분포는 정규분포 N(μ, σ2/n)을 따른다.
- 중심극한정리 : 임의의 모집단에서 표본크기(n)가 충분히 크면 (n>30), 표본평균의 분포는 근사적으로 정규분포를 따른다.

변수변환: 통계량은 확률표본의 함수이므로 통계량의 분포를 구하려면 확률변수의 함수에 대한 분포를 구하는 방법
- 확률변수 X의 확률질량함수 fX(x)를 가지는 이산형 변수일 때, 새로운 변수 Y=u(X) (u(X)는 일대일 함수)의 확률분포를 구하는 방법
- 역함수 x = u-1(y)
- Y의 확률질량함수 : fY(y) ~ 식(4.1)

- 확률변수 X가 연속형이고, u(X)가 일대일 함수일 때, Y의 확률밀도함수는?
- 식 4.2를 y에 대해서 미분하면, 식 4.3이 유도된다. (Leibiz’s Rule)

- 연속형 확률변수 X1, X2의 함수 Y1=u1(X1, X2)와 Y2 = u2(X1, X2)의 결합확률밀도함수는 식 4.4와 같다.
- x1, x2의 역함수 x1=u1-1(y1, y2), x2=u2-1(y1, y2)로부터 도출되며, |J|는 자코비언이라 한다.


적률생성함수의 성질
① 두 확률변수의 적률생성함수가 0부근의 모든 t에서 같으면 두 확률변수는 같은 확률분포를 가진다
- MX(t) = MY(t) ⇔ fX(x) = fY(y)

② n개의 확률변수 X1, X2, … Xn 서로 독립이며 적률생성함수가 각각 MXi(t)일 때, 변수의 합 X1+X2+…+Xn의 적률생성함수는,
- MX1+X2+…+Xn(t) = MX1(t)xMX2(t)x…xMXn(t) = ∏ MXi(t)
- 이때 적률생성함수가 MX(t)로 동일하다면, MX1+X2+…+Xn(t) = [MX(t)]n

③ n개의 확률변수 X1, X2, … Xn 서로 독립이며 적률생성함수가 각각 Mx (t)일 때, 평균의 적률생성함수는,
- MX'(t) = [MX(t/n)]n



카이제곱분포 : X ~ χ2(n)
- 일반적으로 표본분산의 분포는 모집단이 정규분포일 때, 표본분산의 분포는 카이제곱 분포를 따른다.
- 칼 피어슨 (1900)
- 모분산의 추정, 적합도 검정 수행, 교차표 관련 검정 등에 이용된다.


- 감마분포의 특수한 경우로 확률변수 X가 r=n/2, λ=1/2인 감마분포를 따를 때 확률변수 X는 자유도가 n인 카이제곱분포를 따른다.
- 확률밀도함수
- 적률생성함수
- 기대값 : E(x) = n
- 분산 : V(x) = 2n

- 카이제곱분포의 특성
- 표본분산의 분포


- 표본분산의 확률분포


표본평균의 분포
- Xi 서로 독립, N(μ, σ2)을 따름, 즉 다시 정리하면
- 모분산을 모른 경우, 표본 분산을 사용하면, t분포를 따르게 된다.


t분포:
- 정규분포를 따르는 모집단으로부터 얻어진 확률표본으로부터 표본평균 분포 (모분산 -> 표본 분산, 모분산을 모를 때 사용)
- 윌리엄 고셋 (1908년)
- t분포는 자유도에 의해 결정되는 분포이다.
- t(7, 0.05)=1.895 의미 : 자유도는 7이고, 오른쪽으로부터의 누적확률이 0.05가 되는 점 (표준정규분포의 95% 값은 1.645)


표본분산은 모분산의 비편향추정량 : 모든 표본분산의 평균은 모분산과 같다

표본평균차의 확률분포 ~ t분포를 이용, 공통분산 가정



- 동일 분산 가정시, Sp(합동표본분산)


표본평균차의 확률분포 ~ 분산을 모를 때 t분포를 이용, 공통분산 가정


표본분산비 : 두 개의 독립인 카이제곱분포 통계량의 비
- 표본분산비 의 확률분포 : F분포를 이용
- F(r1, r2) = 1/F(r2, r1), T ~ t(n)이면 T^2 ~ F(1, n)
- 두 계산대의 시간의 분포, 두 명의 교수가 성적의 분포

F 분포
- 분산분석에서 쓰이는 분포
- 피셔-스네데커 분포라고 불리기도 한다.




극한분포
- 일정한 가정 하에서 구할 수 있는 통계량 분포들을 공부해왔다.
- 그런데 모든 형태의 통계량 분포를 쉽게 구할 수 있는 것은 아니다.
- 이런 경우에는 표본의 크기 n을 무한의 값으로 증가시킬 때 통계량의 분포가 일정한 분포로 접근하게 되는지 검토해야 한다


- 확률적 수렴 :
- 약대수법칙 : 표본평균은 n이 무한히 커지면, 모평균에 수렴한다.
- 마코프 부등식 :

- 분포의 수렴
- 분포의 수렴을 알려면 누적분포함수나 적률생성함수를 이용한다.

- 중심극한정리
- 드 무아르(1667~1754, 1733) : 동전 던지기 앞면의 수의 분포
- 확률변수 X1, ..., Xn이 평균 E(Xi)=모평균과 분산 V(Xi)=모분산인 모집단에서의 확률표본일 때, 평균이 0이고 분산이 모평균인 정규분포로 수렴한다.
- 라플라스 : 1812년 드 무아르의 결과를 확장, 이항분포를 정규분포로 근사
- 리아프노프 : 수학적으로 정리
- 중심극한정리를 증명해보자!

- 연속성 수정 : 연속형 변수를 사용하여 이산형 변수를 근사할 때 사용, 부등호에 따라 0.5를 가감한다.

- 극한분포의 연산



제5장 점추정

통계학은 우리 주위의 현상에 대한 데이터를 수집하여 요약하고 조사된 결과로부터 일반성을 찾아내는 방법과 이론에 대한 학문이다.
- 통계학은 변동의 학문이다.
- 데이터를 요약 정리하는 것만으로 판단의 세계로 들어가는 데에는 한계가 있다.
- 우리가 알고 싶은 관심대상은 모든 개체에 대한 관측값의 집합인 모집단이다.
- 모집단을 안다는 것은 모집단의 분포를 아는 것으로 귀결되는데, 모집단의 분포는 몇 개의 모수에 의해 결정된다.
- 모집단은 하나의 값으로 되어 있는 확정적이지 않고 불확실하다
-> 모집단의 변수들은 특정한 확률분포를 따른다.
- 우리는 전체 모집단을 알 수 없고 모집단의 일부인 표본만을 알 수 있다.
- 우리는 모집단을 대표할 수 있도록 표본을 추출하고 이를 바탕으로 모집단을 추정한다.

추정
- 모집단을 대표할 수 있도록 표본을 추출하고 이를 바탕으로 모집단을 추정
- 모집단 : 확률변수(X) 모수(θ)를 바탕으로 한 f(x|θ)에 따라서 분포한다고 생각
- 확률표본 : 모집단에서 서로 독립이고 모집단 분포와 동일한 분포를 가지는 표본
- 추정 : 통계량의 분포를 이용하여 모수를 추정
- 통계적 추정 : 표본 데이터에 근거해 모집단 특성값을 제시하는 과정이다
- 점추정 : 모수에 대해 하나의 추정값만 제시
- 구간추정 : 모수 추정값과 더불어 정확도(precision)를 함께 제시
- 추정량(estimator) : 확률표본의 함수인 통계량이다. 통계량은 모수를 추정하는데 이용
- 추정량에 관측값을 대입하여 얻은 추정량의 값을 추정값(estimate)이라 부른다.
- 점추정량 : 확률표본의 함수이다.
- 추정량은 모집단에서 표본을 어떻게 추출하느냐에 따라 그 값이 변하므로 특정한 분포를 가지는데 이를 표본분포라고 부른다.

칼 피어슨 추정법
- 확률분포의 모수는 관찰할 수 없으며 단지 측정치가 산포해 있는 방식으로 유추할 수 있다.
- 측정치의 분포는 적률(평균, 분산, 왜도, 첨도라는 4개의 값)으로 확률분포를 파악할 수 있다.
- 많은 데이터를 수집한 후 분포를 결정하는 적률로 모수를 추정하는 방법 : 적률추정법

피셔의 추정법
- 확률분포는 수학적 함수이고 수집된 데이터를 이용하여 확률분포를 추정 :
- 데이터는 모집단에서 임의로 추출된 표본으로 모집단에서 임의 추출된 표본의 통계량(표본평균, 중앙값, 최빈값 등)으로 모집단을 추정
- 표본평균, 중앙값, 최빈값 등
- 좋은 통계량 : 일치성, 불편성, 효율성을 가지는 통계량
- 일치성: 데이터를 수집하면 할수록 통계량이 모수에 접근할 확률이 높아지는 특성
- 불편성 : 통계량의 확률분포상 가능한 모든 값을 평균한 값이 모집단의 모수와 같은 특성
- 효율성 : 통계량 값이 모집단 모수를 중심으로 얼마나 밀집해서 분포하는 지를 파악하는 것
- 최대가능도(우도) 추정량 제시 : 가능도함수를 구하고 이를 최대화하는 통계량을 구함
- 문제 : 수식이 복잡하고 많은 계산이 필요하다 (컴퓨터 성능의 발전으로 추정가능하게 됨)

점추정과 관련된 추정량 : 적률추정량, 최대가능도 추정량, 베이즈 추정량 등
바람직한 추정량을 찾으려면 미지의 모수를 가지는 모집단의 분포로부터 가상의 확률표본을 추출했다고 가정하고 이를 바탕으로 추정량을 찾아야 한다.
- 최대가능도 추정법 : 표본의 모든 정보는 결합확률밀도(질량)함수의 가능도 함수(likelihood function)에 있다고 생각하고 이를 바탕으로 모수에 대해 가능도 함수를 최대화하는 추정량을 찾아서 이용한다.
- 최소제곱추정법 : 평균제곱오차(모수와 추정량 차이의 함수인 손실함수의 기대값), 모집단 추정에는 평균제곱오차를 최소화하는 통계량이 유용하다.
- 적률추정법 :

적률추정법(1800년대 초반, 칼 피어슨)
- 가장 오래된 방법, 적률이 존재하는 모든 경우에 적률추정량을 구할 수 있다.
- 모집단의 적률&mur을 mr로 추측한 후 모수를 추정하는 추정량이다.


특징
- 계산이 간단하고 일치추정량이다.
- 표본의 크기가 커지면 적률추정량은 모수에 가까워 진다(일치추정량)
- 불편추정량이 아닌 경우, 해가 유일하게 도출되지 못하는 경우도 있다.
- 적률추정량보다 더 좋은 추정량을 구할 수 있는 경우도 많음

- 약대수 법칙을 보면 1차 적률은 모평균에 확률적으로 수렴한다.
- 모든 차수 모집단의 적률이 존재하며 일정한 가정하에 모든 차수의 표본적률은 대응하는 차수의 모집단의 적률에 수렴한다.


- 적률추정량은 직접 구하기도 하지만 일반적으로 k개의 표본적률을 구한 후 k개 모수와 등식으로 놓은 후 k개 모수에 대한 k개 방정식을 풀어 구한다.


- 적률추정량은 모집단의 적률 μr = E(Xr)을 mr = 1/n ∑Xir로 추측한 후 모수를 추정하는 추정량이다.


최대가능도법
- 최대가능도(우도)추정량(maximum likelihood estimator)
- 1821년 독일 수학자 가우스 제안
- 1922년 피셔에 의해 재발견
- 가능도 함수를 구하고 이를 최대화하는 통계량,
- 수식이 복합하고 많은 계산,
- 현재는 가장 널리 쓰인다.
- 관측결과를 바탕으로 관측되었을 가능성이 가장 큰 모수값으로 모수를 추정하는 방법
- 가능도 함수 : 가능도 함수는 확률표본에서 얻을 수 있는 모수의 모든 정보를 가지고 있으므로 이를 바탕으로 모수에 대한 가능성이 가장 높은 통계량을 찾는 방안을 고려
- 로그가능도 함수 :

- 최대가능도 추정량이 명백한 해를 보여 주지 못할 경우에는 복잡한 계산 알고리즘을 이용한 반복계산을 통해 적절한 해를 구해야 한다. (적률추정량은 직접 구할 수 있다)
- 그 범위가 모수의 범위와 일치하며 관측된 표본 하에서 가장 가능성이 큰 모수를 찾는 추정량이다.
- 따라서 표본을 최대한 활용한 추정량 선택방법이다.
- 특징 : 최대가능도추정량의 불변성, 일치통계량, 함수의 최대값(미분값=>0)을 구해야 한다

- 가능도 함수 (likelihood function) : 확률표본에서 얻을 수 있는 모수의 모든 정보를 가지고 있음
- 이를 바탕으로 모수에 대한 가능성이 가장 높은 통계량을 찾는 방안을 고려할 수 있다.

- 최대가능도 추정량


- 최대가능도추정법


- 최대가능도 추정량의 특성



제6장 점추정량의 비교

추정량(estimator) : 모수를 추정하는 데 사용되는 통계량
- 모수를 추정하는 통계량은 그 추정방법에 따라 여러 개의 가능한 추정량이 존재한다.
- 추정값(estimate) : 데이터에 근거한 추정량이 실현된 값
- 가장 좋은 추정량은 변동 없이 항상 추정량 값이 모수와 일치하는 것이다.
- 추정량 선택 기준 : 추정량의 분포를 바탕으로 설정
- 좋은 통계량 : 불편성, 효율성, 일치성을 가지는 통계량이다. (피셔)


불편성 :
- 통계량의 모든 가능한 값을 평균하면 모수와 같아진다는 특징
- 불편추정량 : 통계량 T가 θ의 추정량이고, E(T) = θ 를 만족할 때 이 통계량은 불편추정량이라 한다.
- 편의추정량 : 불편추정량이 되지 못하는 추정량 : bias(T) = E(T) – θ


효율성
- 추정량 중 분산이 작은 것을 의미, 표적지에 밀집되어 있다.
- 같은 조건이라면 모수에 대한 추정량 중 변동성이 작은 추정량을 선호한다.
- 추정량의 변동성이 작다면 추정량 값의 신뢰도는 높아진다.
- 불편추정량의 효율성은 추정량의 분산의 역수로 정의 된다.
- 효율성 = 1/분산


상대효율성 :
- 하나의 모수를 추정하는 두 개의 불편추정량이 있다면 그 성능은 효율성으로 비교할 수 있다.
- 불편추정량일 경우 분산이 작을수록 추정의 정확도가 높아지므로 분산이 작은 추정량이 더 효율적이라 할 수 있다.
- 상대효율성 : eff(T2, T1) = Var(T1) / Var(T2)
- Var(T1) > Var(T2) : T2가 T1보다 효율적

평균제곱오차(MSE) :
- 편의와 효율성을 동시에 고려한 기준
- 추정통계량 T과 모수 θ 간 거리 제곱의 평균 측정값으로 점추정량 T의 움직임에 대한 적절한 측도로 볼 수 있다.
- MSE(T) = Var(T) + bias(T)^2 = E[(T- θ)^2]

- MSE는 추정량의 분산과 편의의 합
- 추정량에 대한 분산과 편의가 모두 작을 때 MSSE가 작아진다.
- 그러나 MSE가 작다는 것은 꼭 불편성을 요구하지는 않는다.
- bias(T)=0이면 T는 θ에 대한 불편추정량이 되면, MSE와 분산이 같아진다.


- 모수의 전체 범위에서 평균제곱오차가 최소인 추정량이 존재하지 않을 경우가 있다.
- 이 경우에는 모수에 의존하지 않고 평균손실을 최소로 하는 추정량을 찾는다. (베이즈 추정량)
- π(θ) : 평균손실, 사전분포

일치성 :
- 표본크기가 증가할수록 추정량의 분포가 모수값으로 집중되어 가는 성질.
- 확률적으로 표현하면, 추정량이 모수 근처에 임의적으로 가까이 있을 확률이 1로 수렴해 간다고 할 수 있다.
- 표본의 크기를 늘리수록 추정량의 분산이 감소한다. (표본의 크기가 커지면 0에 가까워진다)
- 일치추정량 :

- 표본의 개수 n이 증가할수록 모수값 θ로 수렴하며, {Tn}의 극한분포는 θ 값에서 확률 1을 갖는 분포가 된다.
- 이와 같은 점추정량 Tn은 일치성을 갖는다.


충분성 :
- 충분성 : 모수에 대해 그 이상의 정보를 제공하는 다른 통계량이 없을 경우 그 추정량은 충분성을 가진다.
- 충분통계량 : 확률분포 모수에 대한 정보를 잃지 않고 모수를 효율적으로 추정
- 확률분포에서 모수에 대한 충분통계량을 찾았다면 그 통계량으로 미지의 모수에 대한 정보를 잃지 않고 모수를 추정할 수 있다.
- 충분통계량은 표본 모두를 사용하는 것보다 모수추정에 효율적이다.
- 확률표본 {X1, X2, …, Xn}에서 θ에 대한 추정량 T가 주어졌을 때, {X1, X2, …, Xn}의 조건부분포가 모수 θ에 의존하지 않을 때 T는 충분통계량이다.


피셔-네이만 인수분해 정리 :
- 조건부확률에 대한 계산이 복잡한 경우, 충분통계량의 정의를 사용하여 충분성을 만족하는 통계량을 구하기는 간단하지 않다.
- 피셔-네이만 인수분해 정리를 사용하면 충분통계량을 쉽게 찾을 수 있다.


최소분산성
- 모수 θ를 추정하는 여러 개의 불편추정량이 있을 경우, 최소분산을 갖는 경우가 좋은 추정량이다. (예, 평균제곱오차를 최소를 하는 통계량)
- 추정량이 최소분산을 갖는다는 의미는 반복적으로 표본추출 하였을 때의 변동성이 최소인 경우로 가장 좋은 정확도를 제공하는 추정량임을 나타낸다.

균일최소분산불편추정량
- 평균제곱오차는 모수에 의존하기 때문에 모수공간 전체에서 이를 최소로 하는 추정량은 존재하지 않음.
- 균일최소분산불편추정량 : 균일평균제곱오차를 갖는 추정함수의 집합 내에서 불편추정량으로 한정하여 최적의 추정량을 찾아야 함
- 균일최소분산불편추정량 : 평균제곱오차의 최소값을 갖는 불편추정량


라오-블랙웰 정리
- 충분통계량이 주어졌을 때 불편추정량의 조건부기대통계량을 구하는 방식으로 균일최소분산불편추정량을 구하는 방법


정보량 부등식
- 모수를 추정하는 두 개의 불편추정량이 있을 경우, 추정량의 분산이 더 작은 것이 더 좋은 추정량이라고 할 수 있다.

크래머-라오 부등식 :
- 불편추정량이 가질 수 있는 분산의 하한 (최소 분산) -> 균일최소분산불편추정량
- 어떤 불편추정량의 분산이 크래머-라오 하한과 일치하면, 이 추정량은 균일최소분산불편추정량


피셔의 정보량 부등식 :
- 피셔의 정보량 : 미지의 모수에 대해 데이터 X가 제공할 수 있을 정보량


- 로그가능도함수가 2차 미분 가능할 때의 피셔의 정보량은,


- 피셔의 정보량 : X1, X2, …, Xn은 f(x|θ)로부터의 확률표본일 때, n개의 표본에 대한 피셔의 정보량은 nI(θ)가 된다.


- 피셔의 정보량 부등식 :
- 불편추정량이면서 이의 하한이 정보량부등식의 하한과 같다면, 그 추정량은 균일최소분산불편추정량이다.



제7장 가설검정

통계적 가설검정
- 우리는 항상 불확실한 상황에 처해 있고, 그에 따른 의사결정은 매우 어렵다.
- 이러한 의문에 데이터를 바탕으로 통계적 원리를 적용해 답을 하면, 보다 객관적일 것이다.
- 자료를 이용하여 모집단(모수)에 대한 두 가설 중에서 어느 것이 타당한지 판단하는 것
- 통계적 가설검정은 두 개의 가설을 설정하고, 두 가설 중 어느 가설이 적당한지 파악하는 것이다.
- 피셔, 네이만, 이곤 피어슨의 연구
- 가설을 세우고 가설을 입증하기 위한 데이터를 수집하고 가설검정에 적합한 도구인 검정통계량값을 구한 후 귀무가설하의 검정통계량의 분포와 비교하여 유의수준을 고려하여 최종판단을 하게된다.
- 통계검정 : 모집단에서 추출한 확률표본으로부터 새로운 가설(대립가설)이 타당한지 살펴보는 방법, 기존의 가설(귀무가설) 하의 통계량 분포를 도출
- 통계량 값이 가정하는 가설에서는 일어나기 어려운 값 -> 가설이 타당하지 않음

- 대립가설 : 입증하려는 가설, 새로운 사실 또는 현재의 믿음에 변화가 있는 사실 (피고인은 유죄이다), 양측가설과 단측가설로 구분
- 귀무가설 : 대립가설에 반대되는 가설, 기존의 알려져 있는 사실 (예:피고인은 무죄이다)

- 귀무가설은 비교하는 값과 차이가 없다는 것을 기본으로 설정된다.
- 대립가설은 뚜렷한 증거가 있을 때 주장하고자 하는 가설로 차이가 있음을 기본으로 설정한다.
- 가설검정의 기본적인 생각 : 확실한 근거가 있기 전에는 대립가설을 선택하지 않고 귀무가설(현재의 사실)을 받아들인다
- 먼저 귀무가설이 참이라고 생각하고 구해진 관측값보다 더 벗어날 확률이 유의수준보다 크다면 귀무가설이 참이라는 가정이 적절하다고 판단하고, 데이터로부터 구해진 관측값이 벗어날 확률이 유의수준보다 작다면 귀무가설이 참이라는 가정이 적절하지 않다고 판단하는 것이다.

유의확률 (p-value)
- (귀무가설이 참이라고 생각하고 구해진 관측값) 보다 벗어날 확률, 귀무가설이 유의(의미가 있을) 확률
- 귀무가설 하에서 주어진 관측값보다 더 극단적인 값을 얻을 확률
- 유의확률이 작다는 것은 귀무가설이 참이 아니거나, 매우 희귀한 사건이 발생했음을 의미한다.
- 유의확률이 유의수준보다 크다면 귀무가설이 참이라는 가정이 적절하다고 판단하고, 유의수준보다 작다면 귀무가설이 참이라는 가정이 적절하지 않다고 판단한다.
- 유의확률은 귀무가설이 기각되지 못한 근거의 정도. 관찰된 표본평균의 값을 기준값으로 하였을 때의 제1종 오류 확률을 계산한 것이다.
- 유의확률은 측정된 표본평균이 모든 가능한 표본평균 중에서 어디에 위치하는지를 알려준다. 즉 p값이 더 클수록 기각되지 못한 강력한 근거가 된다.
- 통계적 가설검정은 어떠한 관측값에 대하여 귀무가설을 기각할 것인지에 따라 결정된다.
- 통상 대립가설이 채택될 때는 대립가설이 참이라는 확실한 근거가 있다는 의미가 있지만 귀무가설이 채택될 때는 대립가설이 참이라는 확실한 근거가 없다.
- 귀무가설이 채택될 때는 ‘귀무가설을 기각시키지 못한다’고 표현하고 대립가설이 채택될 때에는 ‘귀무가설을 기각한다’고 표현한다.
- 귀무가설을 기각시키고 대립가설을 채택할 수 있을 때에는 통계적으로 유의성이 있다고 표현한다.

기각역(R)
- 귀무가설을 기각하는 관측값의 영역
- 관측값이 기각역 R에 속하면 귀무가설을 기각
- 관측값이 기각역에 속하지 않으면 귀무가설을 기각하지 않음


가설검정과정
1. 귀무가설과 대립가설을 세우고, 유의수준을 결정한다. (단측/양측 검정)
2. 귀무가설하에서 검정통계량이 따르는 분포를 정하고 계산한다.
3. 분포를 바탕으로 유의수준에 해당하는 검정통계량값인 기각역을 찾거나, 통계량값과 관련된 확률(유의확률)을 구한다.
4. 통계량값을 기각역과 비교하거나 유의확률을 유의수준과 비교하여 가설을 검정한다.

유의수준(제1종 오류 발생확률의 허용한계)이 정해지면 표본평균의 분포를 이용하여 두 가설에 대한 선택기준을 마련할 수 있다.
- 때로 상식적 기준에 의한 결과와 상반되지만 표본의 결과가 귀무가설을 기각할 충분한 근거가 되지 못한다는 것을 의미한다.
- 제1종 오류 확률 (유의확률, p값)은 측정된 표본평균이 모든 가능한 표본평균 중에서 어디에 위치하는 지를 알려준다.
- 유의확률(p값)은 더 클수록 기각되지 못한 강력한 근거가 된다. 반대로 귀무가설이 기각되는 경우는 p값이 더 작을수록 기각된 근거가 더 강력하다
- 따라서 p값이 분석자가 고려하는 유의수준보다 작으면 표본평균이 기각역에 있다는 것을 뜻하기 때문에 귀무가설을 기각한다.

모평균을 검정하려면 귀무가설하에 모평균과 관련된 통계량인 표본평균을 표준화한 식을 이용하게되나, 현실적으로 모집단의 표준편차를 알 수 없으므로,
- 모표준편차의 추정량 S로 대치한 검정통계량을 이용하게 된다.
- 이 검정통계량은 모집단이 정규분포라는 가정하에서 자유도 n-1인 t분포를 따른다.

통계적 가설검정
- 통계적 가설검정을 통해서 대립가설을 입증하는 방법
- 반대되는 가설인 귀무가설이 참이라고 가정
- 그 가정 하에서 주어진 관측값보다 더 벗어난 값을 얻을 확률이 매우 작다면 귀무가설이 참이라는 가정이 적절하지 않다고 판다
- 귀무가설을 '과거나 현재의 사실'로 두고, 확실한 근거가 없는 한 귀무가설을 채택하는 결정방식이다.
- 하나의 오류를 줄이면 다른 오류가 커지는 상충관계에 있다.
- 통계적 가설검정은 1종 오류를 중시하는 의사결정을 한다. 따라서 1종 오류의 최대한계를 정하고, 다음에 2종 오류를 줄이게 된다.
- 통계적 가설검정은 가설을 세우고 가설을 입증하기 위한 데이터를 수집하고 가설검정에 적합한 도구인 검정통계량(test statistic)값을 구한 후
- 귀무가설하의 검정통계량의 분포와 비교하여 유의수준을 고려하여 최종 판단을 하게 된다.
- 유의수준(α) : 제1종 오류가 발생한 확률의 최대 허용한계 (5% - 100번 검정 시행 중 5번은 귀무가설이 옳은데 기각하는 오률를 범할 수 있다는 의미)
- 기각역 : 귀무가설을 기각하는 관측값의 영역으로 검정통계량의 분포와 유의수준을 바탕으로 정한다. 통계량값과 기각역을 비교하여 귀무가설 기각여부를 결정하게된다.


가설검정의 두가지 오류
- 1종 오류(α) : 귀무가설이 참인데 기각하는 오류 (피고인인 무죄인데, 귀무가설을 기각하는 오류)
- 제1종 오류를 범할 확률 : α = P(X ∈ R | H0)
- 2종 오류(β) : 귀무가설이 거짓인데, 기각하지 않는 오류 (대립가설을 채택하지 않는는 오류) (피고인이 유죄인데, 귀무가설을 기각하지 않는 오류)
- 제2종 오류를 범할 확률 : β = P(X ∉ R | H1)

검정력(1- β) = P(X ∈ R | H1)
- 대립가설이 참일 때 귀무가설을 기각할 확률
- 틀린 귀무가설을 기각하여 귀무가설의 잘못을 찾아내는 확률, 제2종 오류(베타)가 발생할 확률은 표본크기에 의해서 조절한다.

검정함수 δ(X)
- δ(X) = 1, X ∈ R / δ(X) = 0, X ∉ R
- 귀무가설이 참일 때 δ(X) 의 기대값은 제1종 오류를 범할 확률이고, 대립가설이 참일 때 δ(X) 의 기대값은 검정력이 된다.
- 관측값 x에서 if δ(X) =1 : 귀무가설을 기각, if δ(X) =0 : 귀무가설을 기각하지 못함
- δ(X) = 0.5 : 이 관측값에서 귀무가설을 기각할 확률 0.5

- α = P(X ∈ R | H0) = E [δ(X) |H0 ]
- 검정력 = P(X ∈ R | H1) = E[δ(X) |H1]

- 가설검정은 기각역 또는 검정함수에 따라 달라짐
- 어떤 검정이 좋은 것인가? 두 가지 오류를 범할 확률을 작게 하는 검정이 좋음
- 제1종 오류를 범할 확률을 작게 하는 검정은 일반적으로 제2종 오류를 범할 확률을 크게 함
- 최적의 검정 : 주어진 제1종 오류의 일정 기준(수준) 이하 인 검정 중에서 제2종 오류를 범할 확률을 최소화 하는 검정
- 유의수준 : 제1종 오류를 범할 확률이 일정한 값 이하가 되도록 정함
- 수준 α 검정 : 제1종 오류를 범할 확률이 α 이하인 검정

최강력검정
- 단순가설 : 귀무가설이나 대립가설 하에서 X의 확률분포가 하나로 결정 – H0 : θ = 1
- 복합가설 : 확률분포가 하나로 결정되지 않을 때 가설 – H1 : θ > 1
- 최강력검정 : 검정 δ가 제1종 오류를 범할 확률이 α 이하인 검정 중에서는 제2종 오류를 최소로 하는 검정임을 의미한다.


- 네이만-피어슨 정리 : 최강력검정을 구하는 구체적인 방법


- 가능도비 : 통계량의 함수 (통계량과 기각역의 관계로 다시 표현)


가능도비검정
- 최강력 검정


- 복합가설하의 가설검정


- 복합가설하에서는 귀무가설과 대립가설 하에서 확률밀도함수가 하나로 결정되지 않는다.
- 따라서 두 가설 하에서의 확률밀도함수의 비에 의하여 기각역이 결정되는 최강력검정을 사용할 수는 없다.
- 해결방법 : 하나로 결정되지 않는 확률밀도함수 대신 각 가설 하 최대가능도를 이용한다.

- 최대가능도비


- 가능도비검정(likelihood ratio test) : 귀무가설 하에서의 최대가능도와 모수 전체에서 구한 최대가능도의 비에 의하여 기각역이 정해지는 검정
- 귀무가설과 대립가설 하에서 최대가능도비를 사용한 기각역 R


- 가능도비 검정



- 유의수준 α에서 가능도비검정의 정확한 기각역은 귀무가설이 참일때, 가능도비의 확률분포를 알아야 한다.


- 가능도비의 근사적 분포


- 가능보비 검정의 기각역


카이제곱 검정
- 분할표 검정 : 가능도비검정을 이용하여 각 범주에서 빈도수로 주어지는 분할표에 대한 적합도 검정, 동질성 검정, 독립성 검정에 대한 검정을 유도할 수 있음



- 적합도 검정



- 독립성 검정



유의성 검정
- 피셔의 유의성 검정 : 주어진 가설에 대한 p-값을 바탕을 둔다
- p-값 : 귀무가설 하에서 주어진 관측값보다 더 극단적인 값을 얻을 확률로 귀무가설에 대한 반대 증거
- 이 값이 매우 작다면 귀무가설이 참이 아니거나 가능성이 매우 낮은 사건이 발생한 것으로 보았다. (유의성 검정)
- 귀무가설만 설정하고, 주어진 관측값이 이 가설에 얼마나 부합하는 지 알아보고자 한 것

- 네이만-피어슨의 가설검정 : 귀무가설과 대립가설에 대하여 제1종 오류를 범할 확률과 제2종 오류를 범할 확률에 기초한 방법
- 피셔의 검정을 좀 더 체계화하려고 시도함
- 귀무가설과 대립가설을 설정
- 제1종 오류를 범할 확률 α, 제2종 오류를 범할 확률 β와 검정력에 대한 개념을 도입
- 주어진 α에 대하여 대립가설을 고려하여 최적의 기각역을 구하는 방법
- 주어진 기각역을 사용하여 검정을 여러 번 반복한다고 할 때, α는 제1종 오류를 범하는 비율로 생각하였으며,
- 마찬가지로 β는 제2종 오류를 범하는 비율로 생각하였다.
- 귀무가설에 대하여 주어진 관측값의 p-값이 유의수준 α보다 작으면 귀무가설을 기각하는 것처럼 피셔의 검정에서 사용된 p-값이 네이만-피어슨 검정에서 이용된다.



제8장 구간추정

통계추론이란 그 모집단으로부터의 표본에 근거하여 모집단에 대한 정보를 알아내는 과정으로 추정(estimation)과 검정(testing)으로 구분된다.

검정은 모집단에 대한 주장의 타당성을 표본을 통해 점검하는 것으로 표본으로부터 나타나는 증거가 우연한 것인지, 아니면 모집단에 실제로 존재하는 것인지를 점검하는 것이다.
- 신뢰수준은 모수의 참값이 속할 것으로 기대되는 구간 안에 모수가 포함될 가능성을 나타낸 확률이다.

추정(estimation)은 표본으로 모집단에 대한 결론을 도출한 것인데, 점추정과 구간추정으로 나누어진다.
- 점추정은 모수에 대해 하나의 추정값만 제시하는 것이다.
- 점 추정량 : 모집단이 정규분포를 따를 대 모평균에 대한 추정 : μ에 대한 추정량 ()

- 모수의 추정량 : 확률분포를 가지는 통계량 (주어진 자료를 이용하여 모수의 추정값을 얻음)
- 모수의 추정값이 모수의 참값 근처에 있을 가능성(확률)이 높다고 기대

- 구간추정은 표본분포를 이용하여 모수가 포함되리라고 기대되는 범위로 추정하는 것이다.
- 구간 추정은 모수추정값과 더불어 정확도를 함께 제시하는 것이다.
- 모수를 포함할 것으로 기대되는 구간을 제시하여 모수를 추정하는 방법
- 신뢰구간(confidence interval) : 모수를 추정하기 위하여 제시된 구간 (네이만, 1930)
- 95% 신뢰구간 : 모수에 대한 95% 신뢰구간을 구하는 과정을 100번 반복하였을 때, 100개의 신뢰구간 중 95개가 모수를 포함한다는 의미




신뢰구간
- 100(1-α)% 신뢰구간 : 신뢰구간을 구하는 과정을 여러 번 반복할 때 그 중에서 모수를 포함하는 신뢰구간의 비율의 극한
- 모수에 대한 100(1-α)% 신뢰구간 :


모집단이 정규분포를 따르는 경우 관심 있는 모수는 모평균과 모분산이고, 모집단이 이항분포를 따르는 경우 표본수가 정해져 있다면 관심 모수는 모비율이다.
모집단을 추정하는 것은 모집단의 분포를 결정하는 모수를 추정하는 것이다.
- 모평균(정규분포), 모비율(정규분포), 모분산(카이제곱분포)

모평균의 구간추정 :
- 표본평균의 기대값은 모평균이 된다.
- 모집단으로부터 수없이 많은 표본을 추출한 후 표본평균을 구하고, 이를 다시 평균한다면 모평균이 된다는 의미 (표본평균은 모평균의 불편추정량)
- 대수의 법칙 : n이 엄청 커지면 표본평균의 평균은 모평균이 된다.
- 표본평균의 분포는 표본수가 커질수록 밀집하게 된다.
- 중심극한정리에 따라 모집단이 어떠한 분포든지 표본크기가 충분히 크다면 모든 가능한 표본평균은 모평균 주위에 정규분포 모양을 하면서 밀집하게 된다.
- 표본 평균을 이용하여 모평균의 구간을 추정하게되는데, 이때 모분산을 모른다면, 표본의 분산을 이용하여 모분산을 추정하게 된다. 이때는 t분포를 이용해야 한다.
- 즉, 모집단이 정규분포이고 모분산을 모르는 경우 모평균의 100(1-a)% 구간 추정 : 표본평균 +/- t(n,a/2)값 * sqrt(표본분산/n)
- 95% 신뢰구간의 의미 : 모집단에서 표본을 100번 반복하여 추출한 후 모평균에 대한 95% 신뢰구간을 각각 구했을 때 구해진 100개의 신뢰구간 중 95개가 모평균을 포함함을 의미한다.
- 모평균에 대한 구간 추정



모평균에 대한 구간 추정 :
- 일반 모집단에서 모평균에 대한 구간추정
- 중심극한 정리 : 표본 크기가 큰 경우에는 모집단의 확률분포에 상관없이 표본평균의 분포는 근사적으로 정규분포를 따름


모분산에 대한 구간추정
- 모집단의 분산을 추정하는 것은 제품의 균질성, 금융시장의 변동성 등을 파악하는 데 이용된다.
- 모분산의 추정 : 표본분산의 중요한 특징은 불편성이다. 즉 표본분산은 모분산의 불편추정량이다. 따라서 표본분산을 이용하여 추정한다.
- 모분산은 표본분산을 이용하여 추정할 수 있으며, 표본분산의 확률분포는 카이제곱 분포를 따른다.
- 정규분포를 따르는 모집단에서 표본을 추출한 후 구한 표본분산은 자유도가 n-1인 카이제곱분포를 따른다.
- 모분산의 신뢰구간 공식 :



통계적비교 : 두 모집단의 평균을 비교하는 문제로 두 모집단의 평균의 차가 0인가, 크거나 작은가 등을 검정한다.
- 모집단에서 추출된 표본이 서로 독립적 추출된 경우(독립표본)와 아닌 경우(대응표본)에 따라 다르다.
- 금년도 대졸사원의 초임이 남녀별로 차이가 있을까? (독립표본)
- 두 생산 라인에서 생산되는 제품의 무게에 차이가 있을까? (독립표본)
- 타자속도를 증가시키기 위해서 타자수에게 실시한 특별교육이 과연 타자속도의 증가를 가져왔을까? (대응표본)

두 모평균의 차에 대한 구간 추정 :
- 동일 분산의 경우, 모분산을 알고 있을 때,


- 모분산을 모를 때,



- 일반 모집단에서 두 모평균의 차에 대한 구간추정


두 모평균의 차에 대한 구간 추정 :
- 짝비교에서 두 모평균의 차에 대한 신뢰구간
- 짝비교 : 두 가지 처리효과를 비교할 때,
처리방법을 제외한 나머지 조건은 서로 비슷하도록 짝을 지은 다음, 그 중 하나에는 한 가지 처리를 하고 나머지 하나에는 다른 처리를 하여 비교하는 방법


두 모분산의 비에 대한 구간추정
- 두 모분산이 같은지 검정할 경우에는 분산의 차이를 비교하지 않고 분산의 비를 계산한다.
- 두 표본의 분산은 카이제곱분포를 따름
- 이는 표본분산비에 대한 분포를 수학적으로 찾아내기가 용이하기 때문이다
- 두 모집단이 각각 정규분포를 따를 경우 분자자유도, 분모자유도에 따른 F분포를 따르게된다.



모비율의 추정 :
- 표본 비율은 표본평균과 마찬가지로 불편추정량이며 표본수가 커지면서 밀집된 정규분포로 근사된다.
- 표본의 크기가 충분히 큰경우: n*표본비율 > 5, n*(1-표본비율) > 5
- 한 모집단에서 모비율의 구간 추정


- 두 모비율 차의 신뢰구간 : 서로 독립인 두 표본의 크기가 충분히 클 때 두 모비율의 차의 추정량의 분포


구간추정과 가설검정의 관계
- 구간추정과 가설검정 사이에는 일정한 관계가 성립한다
- 귀무가설에 대한 기각역의 여집합을 채택역(acceptance region)이라 한다.
- 즉, 가설검정에서 귀무가설을 기각하지 못하는 관측값의 영역인 채택역을 정할 수 있다.
- 귀무가설에 대해 유의수준에서 채택역은 모수에 대한 신뢰구간이 된다.
- 이때 신뢰구간 밖에 있으면 귀무가설을 기각함을 의미한다.
- 주어진 표본평균값을 바탕으로 검정통계량을 구했는데, 유의수준 α 에서 귀무가설을 기각하지 못하는 영역은 다름 아닌 모평균의 (1- α)x100% 신뢰구간이 된다.
- 역으로 모평균의 (1- α)x100% 신뢰구간에 포함되면 귀무가설을 기각하지 못하고, 포함되지 못하면 귀무가설을 기각하게 된다.



- 100(1-α)% 신뢰구간


- 모수 θ에 대한 100(1-α)% 신뢰구간에 속하는 θ0에 대해서는 귀무가설 H0 : θ = θ0를 기각할 수 없다는 사실을 알려주고 있다.



제9장 베이지안 추정과 검정

확률의 두 가지 해석
- 빈도론적 해석 (빈도론자) : 동일한 조건하에서 무한히 반복 가능한 확률적 실험을 무한히 반복할 때, n번의 시행에서 사건 A가 nA번 일어났다고 할 때,
- 장점 : 객관적 의미로 해석
- 단점 : 무한히 반복 가능한 확률적 실험으로 국한시킴


- 주관적 해석 (베이지안) : 사건 A에 대한 개인의 확률 P(A)는 사건 A가 일어날 가능성에 대한 개인의 믿음의 정도
- 특징 : 하나의 사건에 대해 사람마다 다른 확률을 가질 수 있다.
- 비판 : 동일한 사건에 대해 사람마다 확률이 다르다면 어떻게 확률(정확히는 주관적 확률)에 기반을 둔 통계학이 과학의 기본 도구가 될 수 있는가?

베이지안 추론
- 기본 요소 : 사전분포(prior distribution), 가능도함수(likelihood function), 사후분포(posterior distribution)
- 베이지안은 모든 불확실성을 확률로 표현가능하다고 믿음
- 관측값 x가 미지의 모수 θ를 가지는 확률분포 f(x| θ)를 따른다고 할 때,

사전분포 : 알려고 하는 미지의 모수 θ의 불확실성을 나타낸 분포
- 사전분포 : 관측값 x를 관측하기 전에 θ에 관한 불확실성 혹은 정보를 표현한 분포
- 확률분포함수 : θ ~ π(θ)

가능도 함수 (확률모형)
- 모수 θ가 주어져 있을 때, 관측치의 확률분포 X|θ ~ f(x|θ)
- f(x|θ)를 θ의 함수로 본 것을 가능도 함수라 한다. L(θ) = f(x|θ)


사후분포
- 모수 θ가 확률분포를 가지는 확률변수이므로 x의 확률분포 f(x|θ)는 θ가 주어졌을 때 x의 조건부확률분포가 된다.
- 따라서 사전분포 π(θ)와 x의 확률분포 f(x|θ)를 이용하여 모수와 관측값 x의 결합분포를 구할 수 있다.
- 이를 이용항여 관측값 x가 주어졌을 때 모수의 조건부확률분포를 구할 수 있다.
- 이 조건부확률분포를 관측값 x가 주어졌을 때 모수 θ에 관한 불확실성 혹은 정보를 나타내는 사후분포라하고 π(θ|x)로 나타낸다.
- 사후분포는 관측치 x가 주어졌을 때, 모수 θ의 조건부확률분포로, θ|x ~ π(θ|x)
- 즉, 사후분포를 구하면 통계적 추론할 수 있다.



베이지안 추론의 기본요소
- 사전분포 : 관측값을 관측하기 전에 모수에 대한 불확실성을 나타내는 확률분포
- 가능도함수 : 관측값에 포함된 모수에 대한 정보를 나타내는 함수로, 관측값의 확률분포 (확률모형) 를 모수의 함수로 나타낸 것
- 사후분포 : 관측값을 관측한 후에 모수에 대한 불확실성을 나타내는 확률분포

마코프체인 몬테카를로 방법
- 일반적으로 사후분포를 수리적으로 구할 수 있는 확률분포모형과 사전부포는 매우 드물다.
- 실제 응용문제에서는 매우 복잡한 확률분포모형과 사전분포가 쓰이기 때문에 사후분포를 수리적으로 구하는 것은 거의 불가능하다.
- 따라서 대부분 수치해석적인 방법을 이용하여 사후분포를 구한다.
- 대표적인 수치해석 방법 : 중요도표집, 마코프체인 몬테카를로 방법(Markov Chain Monte Carlo, MCMC, 1990년대 초반)

베이지안 추론은 사후분포에 기반해서 이루어지고, 빈도론자의 추론은 통게량의 표본분포에 기반해서 이루어진다.
- 표본의 크기가 클 때, 최대가능도추정량의 표본분포와 사후분포가 서로 근접하다는 것이 알려져 있다.
- 보통 점추정과 구간추정에서 빈도론자와 베이지안의 추정량들에 대한 해석은 다르지만, 수리적인 값은 비슷하다.
- 물론 베이지안 추론과 빈도론자 추론의 결론이 매우 다른 경우도 많이 알려져 있다.
- 가설 검정에서는 두 방법의 해석 뿐 아니라 결론도 매우 다르다.

점추정
- 사후분포는 자료를 관측한 후 모수에 관한 모든 정보, 즉 사전분포와 자료에 있는 정보를 종합해 확률분포로 나타낸 것이므로 베이지안의 추론은 사후분포를 원하는 모양으로 요약 정리하는 형태가 된다.
- 베이지안 추론의 기본 : 자료를 관측한 후 모수에 대한 모든 정보는 사후분포에 요약되어 있으므로, 베이지안 추론은 사후분포를 정리하는 형태가 된다.
- 베이지안 점추정 : 모수 θ에 관한 점추정 역시 사후분포 π(θ)를 하나의 숫자로 요약하는 것이다.
- 사후분포를 하나의 숫자로 요약하는 대표적인 추정량으로는 사후분포의 평균값, 중앙값, 최빈값 등이 있다.

- 사후분포를 이용하여 추정량을 구하는 결정론적 방법은 주어진 손실함수를 사후분포로 평균을 낸 베이즈 위험함수(Bayes risk function)를 최소화하는 베이즈 추정량이다.
- 베이즈 위험함수 : 손실함수를 사후분포로 평균을 낸 것
- 베이즈 추정량 : 베이즈 위험함수를 최소화하는 추정량
- 손실함수가 제곱오차일 때 베이지 추정량이 사후분포의 평균값
- 베이즈 추정량이라 하면 일반적으로 사후분포의 평균값을 지칭한다.


- 사후분포의 중앙값

- 사후분포의 최빈값 : MAP(Maximum a posterior) 추정량이라고도 한다.

구간추정
- 베이지안 구간추정은 사후분포를 이용해 구간추정치를 구한다.
- 100(1-α)% 베이지안 신뢰구간
- s(x)가 상한과 하한을 가진 구간으로 표현된다.


- 주어진 0 < α < 1에 대하여, 보통 100(1-α)% 베이지안 신뢰구간은 무수히 많다.
- 가장 많이 쓰이는 것으로, 동일꼬리 베이지안 신뢰구간과 최고사후밀도 베이지안 신뢰구간이 있다.

동일꼬리 베이지안 신뢰구간
- 관측값 x로 표현되는 구간 [l(x), u(x)]가 식을 만족할 때,
- 상한과 하한을 사후분포의 분위수를 이용해 쉽게 구할 수 있다.


최고사후밀도집합
- 100(1-α)% 최구사후밀도집합은 모든 100(1-α)% 베이지안 신뢰집합 중 길이가 가장 짧다.
- 최고사후밀도집합을 구하기가 힘들다
- 사후분포가 여러 개의 봉우리를 가지고 있을 때, 최고사후밀도집합이 연결되지 않는 몇 개의 구간으로 나누어 질 수 있다.


사전분포
- 관측값 X가 이항분포 B(n, p)를 따르고, p의 사전분포가 베타분포 일 때, p의 사후분포도 역시 베타분포를 따른다.
- 켤레사전분포 : 사후분포가 사전분포의 집합에 포함될 때, 사전분포의 집합을 켤레사전분포의 집합이라 하고, 그 원소를 켤레사전분포라 한다.
- (정의) 켤레사전분포 : ∏가 통계분포 f(x| θ), θ ∈ Θ에 대한 사전부포의 집합일 때, 모든 사전분포 π ∈ ∏와 모든 가능한 관측값 x에 대하여, 그의 사후분포 π(θ|x) 역시 ∏에 속한다면 ∏를 켤레사전분포의 집합이라 하고 그 원소를 켤레사전분포라 한다.


- 실제 데이터를 다루는 베이지안 통계분석에서는 확률분포모형이 복잡해지기 때문에 일반적으로는 켤레사전분포를 사용하지 못한다.
- 켤레사전분포를 사용하지 못할 때에는 사후분포를 수식으로 구하지 못하는 경우가 대부분이다.
- 이 경우에는 수치해석적인 방법을 이용하여 계산하는 것이 보통이다.

사전분포 모수의 결정


- p의 사전분포의 평균값 : α / (α+β)
- 최대우도추정량 ( x / n)의 가중평균
- 가중치는 각각 : (α+β) / (α+β+n) 와 n / (α+β+n)
- 베이즈 추정량은 사전분포의 평균과 자료로 이루어진 최대우도추정량의 가중평균 값
- 즉, 가중치는 α+β와 확률표본의 크기 n의 상대적 크기에 따라 결정된다.
- 사전분포의 평균값은 사전분포만을 이용한 p의 추정량이고, 최대우도추정량은 관측값만을 이용한 추정량이다.
- 그리고, 베이즈 추정량은 α+β와 랜덤표본의 크기 n의 상대적 크기에 따른 가정평균값이다.
- 따라서, α+β는 표본크기 n과 같은 역할을 함을 알 수 있다.
- 이와 같은 이유로 α+β를 사전자료의 크기(prior sample size)라고 부르기도 하고
- 사전분포가 가지고 있는 정보의 양으로 해석하기도 한다.

- 자료를 보기 전에, 가장 그럴 듯한 p 값이 p0이고, 이는 관측값 k개의 정보량만큼 확신을 가지고 있다면, 사전분포의 모수를 정할 수 있다.


정규사전분포 모수의 결정
- 정규분포도 이항분포와 같이 켤레사전분포의 모수를 결정할 수 있다.


- 베이즈 추정량은 사전분포의 평균값 μ와 θ의 최우추정량의 가중평균값으로 표현되고,
- 가중치는 사전분포의 분산의 역수과 추정량의 분산의 역수의 상대적 크기로 결정된다.
- 분산의 역수는 정밀도라고 불리는 정규분포가 가지고 있는 정보의 크기로 해석되기도 한다.
- 따라서 가중치는 사전분포의 정보량과 확률표본이 가지고 있는 정보의 크기로 결정됨

- 사후분포의 정밀도는 (1/τ2)+(n/σ2)이므로 흥미롭게도 사전분포와 최대우도추정량의 정밀도의 합임을 알 수 있다.
- 이와 같은 논리로 θ의 사전분포의 모수 μ와 τ2을 결정할 수 있다.


주관적 사전분포의 어려움
- 주관적 사전분포를 이용하는 것이 이상적이지만 실제분석에 이용하기에는 어려움이 많다.
- 자신의 의견을 정확하게 확률분포로 나타내는 것은 많은 시간과 노력이 필요하다
- 분석결과를 공유할 때 모든 사람들이 수용할 수 있는 사전분포는 유용하다
- 주관적 사전분포가 실제 사용에 어렵고, 빈도론자들의 비판 때문에, 정보를 전혀 포함하지 않는 사전분포, 즉 무정보사전분포가 있으면 유용하다.

균일사전분포
- θ가 실수값을 갖는 모수이고 분석자는 θ에 대한 정보를 전혀 가지고 있지 않다고 하자
- 임의의 두점 θ1 ≠ θ2를 고려하였을 때, 어떤 한 점이 다른 점보다 더 높은 가능성을 가지고 있지 말아야 하므로 π(θ)가 무정보사전분포의 밀도함수라면, π(θ1) = π(θ2) 이어야 한다.
- 따라서, π(θ) = c > 0 이고 보통 c = 1을 사용하여, π(θ) = 1, ∀θ라 쓴다.
- 상수 c의 값은 사후분포를 구하는 데 중요하지 않으므로 보통 π(θ) = 1을 쓴다. 이 분포를 균일사전분포라고 한다.
- 그러나 이 분포는 엄밀한 의미에서 확률분포라고 할 수 없다.
- 왜냐하면 모수의 집합에서의 적분을 해보면 무한대가 되기 때문이다.
- 이러한 사전분포는 무한사전분포라 한다.
- 유한사전분포 :


- 무한사전분포는 확률분포가 아니기 때문에 조건부 확률분포를 구할 수 없다.
- 사후분포는, ‘사후분포 ∝ 사전분포 X 사후분포’ 를 이용해 구한다.


- 균일 사전분포는 유한사전분포의 분산이 ∞인 사전분포의 극한의 경우이고, 사전분포의 분산이 무한하다는 것은 모수 θ에 대한 정보가 없다는 것과 일맥상통한다.
- 실제로 균일사전분포는 가장 오래되고 많이 쓰이는 무정보사전분포이다.

위치모형
- 확률밀도함수 f가 실수에서 정의되고, θ ∈ R에 대해 X ~ f( x – θ ) 인 분포를 따르면, 이를 위치모형이라하고, θ를 위치 모수라 한다.
- 위치모수에 대해서는 불변성을 이용해 구한 무정보사전분포가 광범위하게 쓰인다.

- 이동불변 사전분포



- 상수값 자체는 사후분포를 구하는 데 상관이 없으므로 보통


- 척도모수 :


제프리스의 사전분포
- 균일사전분포의 문제점 : 변환불변성을 만족하지 않는다.
- 즉, 같은 통계분포라 할지라도, 모수 θ를 선택하느냐 아니면 변환을 한 모수 η=h(θ)를 선택하느냐에 따라 균일사전분포가 달라진다.
- η=h(θ)라 할 때, θ의 균일사전분포와 η의 균일사전분포가 같지 않다.
- 동일한 통계분포에서 모수에 대한 어떠한 변환을 쓰느냐에 따라 사전분포가 달라지고,
- 따라서 사후분포와 추론의 결론이 달라진다면 상식적으로 만족스럽지 않은 통계추론이 된다.


- 제프리스 (1939)는 변환불변성을 만족하는 사전분포를 제안하였다.
여기서 I(θ)는 θ에 관한 피셔정보이다.
- 제프리스 사전분포는 가장 대표적인 무정보사전분포이고, 변환불변성을 갖는다는 것이 장점이다

정규분포에 대한 베이지안 추론
- Inv-Gamma는 역감마분포를 나타낸다


- 정규분포의 분산에 대한 사후분포를 구할 때는 분산을 이용해 구하는 것보다 정밀도 (1/분산)을 이용해 구하는 것이 편하다
- 정밀도를 이용해 사전분포를 구하면,
- μ0는 자료를 관측하기 전에 예상하는 θ의 값이고,
- k0는 θ의 사전분포가 몇 개의 관측값에 해당하는 정보량을 나타내는가 하는 사전자료의 크기


정규분포에 대한 베이지안 추론
- 사후분포를 정리하면,


- θ의 100(1-α)% 베이즈 신뢰구간은,


- 무정보사전분포는,



베이지안 가설검정
- 단순가설의 검정


- 사후확률은 사후확률의 비로 요약되기도 한다.
- 베이즈인수 : 사후확률의 비는 사전확률의 비와 확률밀도함수의 비의 곱으로 표현되는데, 확률밀도함수의 비를 베이즈 인수라 한다.

- 사후확률의 비 = 베이즈 인수 X 사전확률의 비
- 사후확률의 비는 사전확률에만 의존하는 사전확률의 비와 자료에만 의존하는데, 베이즈 인수의 곱으로 나타낼 수 있다.
- 만약, 귀무가설과 대립가설에 대한 사전확률이 같다면 베이즈 인수는 사후확률의 비가된다.
- 사후확률의 비가 1보다 크면 대립가설일 가능성이 높고, 1보다 작으면 귀무가설일 가능성이 높은 것이다.
- 따라서 베이즈 가설검정은 사후확률의 비의 크기에 따라 그 결정이 이루어 진다.


베이지안 가설검정
- 제프리스의 기준


- 베이즈 인수를 알고 있으면, 사후확률의 비를 알 수 있다.


- 복합가설의 검정