JANGUN


확률의 개념과 응용


지음 : 이긍희



목차

1장 확률의 정의와 성질
2장 조건부 확률
3장 확률분포와 기대값
4장 이산형 확률분포
5장 연속형 확률분포
6장 표본분포
7장 확률과정


1장 확률의 정의와 성질

확률(probability)이란 '어떤 사건이 일어날 가능성을 0과 1 사이의 실수로 표시'한 것이다.

고전적 의미의 확률 : 원소의 수가 k개인 사건 A와 원소의 수가 n개인 표본공간 S가 존재할 때 사건 A가 발생할 확률
- 통계적 실험의 모든 가능한 결과의 집합을 표본공간(sample space)이라 하고, 표본공간의 부분집합을 사건이라고 한다.
- 확률 = 사상 A에 속하는 원소의 수 / 표존공간 S의 전체 원소의 수 => P(A)= k / n

상대도수적 확률은 경험 또는 실험을 했을 때 특정한 결과가 발생할 가능성을 의미한다.
- n번의 시행 중 사건 A가 a번 발생했을 때, 사건 A가 일어날 확률 : P(A)= a / n

기하학적 확률은 넓이 및 길이의 상대적 크기로 계산된다.
- 공간의 전체 길이 또는 면전이 S라고 할 때, S에 속하는 A의 길이 또는 면적의 상대적 비율로 A가 발생할 확률 : P(A)= A / S

여사건의 확률 : P(Ac) = 1-P(A)
확률의 덧셈정리 : P(A∪B)=P(A)+(B)-P(A∩B), 만약 두 사건이 배반사건이면 P(A∪B)=P(A)+(B)이다.


2장 조건부 확률

주어진 조건하에서 구하는 확률을 조건부 확률이라 하며, 사건 B가 발생했다는 조건이 주어졌을 때, 사건 A의 조건부 확률은 다음과 같다.


베이즈 정리를 이용하여 표본공간을 분할한 후 조건부 확률로부터 사건의 발생확률을 구할 수 있다.
베이즈 정리의 의의는 주어진 정보를 소화해서 나의 정보로 전환하는 것이다. ~ 역확률
(예) 표본 공간을 분할하여 B₁,B₂,B₃, ... 로 나눌 수 있을 때 다음이 성립한다.


독립 : 사건들이 서로 영향을 주지 않는다. 과거의 사건이 미래를 보장하지 않는다.
A와 B는 서로 독립(independent)이라는 것은 사건 A에 대한 정보로부터 사건 B에 대한 정보를 얻을 수 없다는 것을 의미한다.
※ 독립의 개념과 자주 혼동을 일으키는 것이 배반이다. 두 사건이 서로 배반일 경우는 서로 독립일 수 없다.
- 사건 B가 발생하였다는 정보가 주어지면, 두 사건이 서로 배반이므로 사건 A가 절대 발생할 수 없다. 즉 P(A|B) = 0 이다.
- 사건 A의 확률이 0이 아니면, 조건부 확률 P(A|B)는 P(A)와 다른 값을 가지므로, 두 사건은 서로 독립일 수 없다.
수식으로 표현하면 다음과 같다.


3장 확률분포와 기대값

확률적 실험에서 실험 결과를 수치로 나타내는 것을 확률변수(random variable)라 한다.
확률변수가 취할 수 있는 값을 셀 수 있을 때 이를 이산형 확률변수라 하고 그렇지 않고 연속형일 때 연속형 확률변수라고 한다.

확률변수 X가 x₁,x₂,....,xn의 값을 가지고 X가 값을 취할 확률이 p₁,p₂,...,pn이라 할 때 대응표를 확률분포표라고 한다.
확률변수 X의 기대값은 E(X)로 표현되는데 다음과 같이 구한다.


확률변수의 변동성을 나타내는 분산(Var)과 표준편차(𝜎 )은 다음과 같이 구한다.


두 확률변수의 확률분포를 결합분포라 하며 공분산과 상관계수는 다음과 같이 구한다.


조건부 분포는 한 확률변수의 값이 주어졌을 때 다른 확률변수의 확률분포를 말하며, 이산형 확률변수 (X, Y)에 대하여 Y=yi로 주어졌을 때 X의 조건부 확률분포는 다음과 같이 주어진다.


조건부 확률분포를 이용하여 구한 확률변수의 기대값을 조건부 기대값이라고 한다.


4장 이산형 확률분포

이산형 확률분포 : 확률변수가 가질 수 있는 값의 확률인 확률질량함수에 의하여 확률분포 결정, 균등분포, 이항분포, 초기하분포, 포아송분포
- 이산형 균등분포 : 이산형 확률변수 X는 그 값이 유한개이며 각 값에서의 확률이 모두 같을 때의 분포이며 다음과 같이 표현된다.
- 초기하 분포 : 모집단 N이며 불량품수가 D 일때 n개의 표본을 비복원으로 뽑았을 때, 불량품수 X의 확률분포이며 다음과 같이 표현된다.
- 베르누이 분포 : 두가지 배반적 사상(성공, 실패)을 가진 실험에서 성공률이 p일때, 성공(X)의 분포이며 다음과 같이 표현된다.
- 이항분포 : 불량률이 p이고 뽑힌 상품의 수를 n일때 불량품 수(X)의 분포이며 다음과 같이 표현한다. 여기에서 n=1인 경우는 베르누이 분포이다.
- 포아송 분포(Poisson) : 발생 가능성(P)은 매우 작지만 시행 횟수(n)는 충분히 큰 경우 이항분포보다는 포아송 분포를 이용한다.


5장 연속형 확률분포

확률변수가 가질 수 있는 값이 셀 수 없을 정도가 많을 때 이를 연속형 확률변수라 한다.
연속형 확률분포 : 확률변수 각 값의 확률이 아니라 구간의 확률에 의하여 확률분포가 결정, 균등분포, 지수분포, 정규분포
- 연속형 확률변수의 확률분포는 확률밀도함수에 의하여 결정된다.
- 확률밀도함수 f(x) : 0을 포함한 양의 값을 가지며, X축과 확률밀도함수에 의하여 둘러싸인 부분의 전체 넓이는 1, 연속형 확률변수가 구간에 속할 확률을 결정지어주는 함수
- 연속형 확률변수가 구간 [a,b]에 속할 확률은 그 구간에서 X축과 확률밀도함수에 의하여 둘러싸인 부분의 넓이이다.
- 누적분포함수 F(x) : 어떤 값 x보다 작은 구간인 (-∞, x]의 속할 확률, F(x) = P(X∈(-∞, x]) = P(X≤x)


연속형 균등분포 U(a, b) : 특정한 구간에서 각 값을 가질 가능성이 같을 때 사용되는 확률분포, 영역에서 균등한 가능성을 가지는 확률분포.

지수분포 : 특정한 사건이 발생할 때까지 기다리는 시간에 대한 확률분포로 자주 이용된다. 지수분포는 무기억성 성질을 가지고 있다.
- 사건발생 사이 시간에 대한 확률분포, 제품 수명에 대한 확률분포 - cf) 포아송분포 : 일정 기간 동안 사건이 발생 횟수
정규분포 : 중심점을 기준으로 좌우 대칭적인 종모양의 확률분포를 가지는 분포이다. 많은 연속형 확률변수는 정규분포를 따른다.
- 표준정규분포 : 평균이 0, 분산이 1인 정규분포를 말한다.


연속형 확률변수의 기대값은 확률변수가 취할 수 있는 값에 대하여 확률밀도함수(f(x))를 바탕으로 하여 구한다.


결합확률밀도 함수


***** 정리하면


6장 표본분포

관심의 대상이 되는 전체를 모집단(population), 조사 및 측정되는 모집단의 일부를 표본(sample)이라 한다.
- 모수(parameter)는 알고 싶은 모집단의 특성값이며 통계량(statistic)은 표본으로부터 모수를 추정하기위한 표본의 함수이다.
- 대수의 법칙 : 표본의 수가 커지면 표본평균은 모평균에 접근한다. 표본의 수가 커지면 표본비율은 모집단의 비율에 접근한다.
- 중심극한 정리 : 평균, 분산인 무한 모집단에서 n개의 표본을 임의로 뽑았을 때, 표본의 크기가 커지면 모집단의 분포에 관계없이 표본평균은 근사적으로 정규분포 N(평균, 분산/n)를 따름

이항분포 : n이 클 때 이항분포 B(n, p)는 평균이 np, 분산 np(1-p)인 정규분포에 근접
- n이 클 때, 표본비율은 평균 p, 분산 p(1-p)/n인 정규분포에 근접 (np > 5, np(1-p) > 5)
- 연속성 수정 : 이항분포의 정규근사, P(a≤X≤b) = P(a-0.5≤X≤b+0.5)


7장 확률과정

어느 시점에서의 값은 고정된 상수가 아니라 여러 가능한 값 중에서 어떤 한 값을 확률적으로 가지며, 순차적으로 관측하게 되는 것을 확률과정이라 한다.
- 시계열 : 시간의 흐름을 따라 관측되는 자료
- 확률과정(Stochastic Process) : 어느 시점에서의 값은 어떤 한 값을 확률적으로 가지며, 순차적으로 관측되는 확률변수의 모임


- 무기억성 : 과거와 현재가 주어진 상황에서 미래의 조건부 확률분포가 현재 상태에만 의존
- 정상(Stationary) 성질 : 단계 n의 상태 i로부터 다음 단계에 상태 j로 변화될 확률 P(Xn+1=j |Xn=i)이 n에 의존하지 않을 때.


마코프 연쇄(Markov Chain) 는 미래의 확률분포가 현재의 상태에만 의존하는 확률과정, 무기억성과 정상성을 가지고 있는 확률과정
- 마코프 연쇄에 대하여, 상태로 변화될 확률을 전이확률, 이를 행렬을 이용하여 나타낸 것을 전이확률행렬, 상태와 전이확률을 그림으로 나타낸 것을 전이도라 한다.
- 전이확률 행렬 : 일정 상태에서 다른 상태로 변화될 확률
- 전이도 : 마코프 연쇄가 가질 수 있는 상태와 전이확률의 그림

- 2단계 후의 확률


포아송 과정 : 지진과 같은 특정한 사건의 발생 횟수를 시간의 흐름에 따라 관측한 확률과정
- 짧은 시간 동안 사건 발생확률 매우 낮음
- 짧은 기간 동안 사건 발생 확률 기간에 비례
- 서로 다른 기간 동안 발생 사건들은 서로 영향을 주지 않음
- 예) 정류장에 도착하는 버스 수, 병원 출생 유아 수, 폐업 회사 수
- cf) 이항분포 과정은 각 시점에서 변화가 두 가지만 가능한 이항분포를 따를 때 가지게 되는 확률과정이다.