JANGUN


통계학 기초



목차

1. 통계학 개요
2. 데이터 분석
3. 확률과 확률변수
4. 확률분포와 표본분포
5. 추정과 검정
6. 통계적 비교
7. 통계 모형 : 상관분석과 회귀분석


1. 통계학 개요

1. 통계학이란,
통계학은 관심 대상에 대해 관련된 자료를 수집, 요약, 정리하고, 이로부터 불확실한 사실에 대한 결론이나 일반적인 규칙성을 이끌어 내는 방법을 연구하는 학문이다.
통계학은 사회, 자연, 인간생활 등의 불확실성이 내포된 다양한 현상을 연구하기 위하여 데이터의 선택, 관찰, 분석, 추정을 통하여 의사결정에 필요한 정보를 얻고 처리방법을 연구하는 학문이다.
어떤 성질이나 요소별로 측정하거나 조사하고 분류하여 정리하면 그 현상 전체의 공통적인 법칙이나 규칙성을 찾아낼 수 있다.
즉, 데이터에서 내재된 규칙을 발견할 수 있다. 이것이 통계학의 개념이며, 이러한 과정을 통계적 분석이라고 한다.

2. 통계학의 역사
통계학의 기원은 군주나 왕들이 다스리는 성 또는 나라를 대상으로 세금을 부과하기 위하여 가축의 수나 작물의 작황량을 조사했고, 전쟁에 대비하여 청장년의 인구수를 조사한 것에서부터 현재의 인구센서스나 시장조사가 시작되었다고 할 수 있다. 즉, 통계적 사고와 분석은 다양한 분야에서 데이터의 수집과 분석에 관심이 높아지면서 점차 발전되어 왔다.
- 17세기 : 확률 이론의 발달 (프랑스 파스칼, 페르마, 스위스의 베르누이, 프랑스의 드무아브르)
- 18세기 : 천문학과 수학에서 통계학 발달 (베이즈, 프랑스 라플라스, 독일의 가우스 )
- 19세기 : 기계론적 사고관(뉴턴 물리학), 측정오차와 불확실성 (영국의 찰스 다윈, 오스트리아 멘델, 영국 프랜시스 골턴, 영국의 칼 피어슨과 윌리엄 고셋, 피셔 / 네이만, 이곤 피어슨 )
- 20세기 : 확률적 세계관 (양자역학), 불확실성은 확률로 측정된다 (콜모고로프, 레비, 린드버그, 네이만, 왈드, 새비지)

3. 통계학의 적용 과정
- 문제의 정의 -> 데이터 수집(통계조사, 실험, 관찰) -> 데이터의 요약 -> 데이터로부터 결론을 유도

4. 통계학의 연구 분야
- 기술 통계학 : 데이터를 대표하는 수치나 표, 그래프 등으로 요약하여 전체 특징을 파악하는 학문
- 추측 통계학 : 일부를 분석하여 관심 대상 전체에 관해 추측하고 일반화시키는 학문. 모든 예측이나 결론은 확률을 기본 개념으로 불확실성의 정도를 나타낸다.

5. 주요 용어
- 모집단(population) : 관심 대상이 되는 모든 개체의 집합 (무한모집단 / 유한모집단), 확률변수의 값에 따른 확률분포를 가진다.
- 표본 (sample) : 실제 조사되거나 측정되는 모집단의 일부. 모집단을 정확히 정의해야만 표본을 뽑을 수 있다.
- 임의 추출법 (random sampling) : 모집단의 구성요소 하나하나가 표본으로 뽑힐 확률이 같은 상황에서 표본을 뽑는 방법. 모집단을 잘 대표할 수 있는 표본을 뽑는 대표적 방법
- 모수 (parameter) : 모집단에 대한 수치 특성 값, 분포의 특징을 나타내는 수치 (모평균, 모분산 등), 모집단이 변화하지 않는다면, 고정된 값이다.
- 통계량 (statistics) : 표본에서 얻은 수치 특성 값 (평균, 중앙값, 분산 등등), 표본의 함수, 표본 분포, 모수에 대한 정보를 효율적으로 파악하려고 데이터를 요약하는 것이다.
- 표본분포(sampling distribution) : 통계량의 분포. 모집단의 확률분포와 통계량의 표본분포 간에는 일정한 관계가 있다.
- 확률변수 : 표본공간의 사건을 숫자로 바꿔주는 함수

- 추론 : 알고 있는 증거로부터 일정한 결론을 도출하는 방법,
- 귀납적 추론 : 다수의 관측을 통해 결론에 도달하는 방법, 통계학의 기본 원리
- 연역적 추론 : 증명된 명제로부터 논리적 형식을 적용, 새로운 결론을 이끌어 내는 방법, 수학의 기본 원리
- 통계추론 : 모집단에서 뽑은 표본의 정보(통계량값)를 이용, 모수를 추측, 표본만으로 완전한 추론이 어려우므로 확률로 불완정성 표현
- 통계추론의 이론적 부문 - 연역적 추론, 데이터를 이용한 통계분석과정 - 귀납적 추론

- 추정 : 표본의 자료로 모집단에 대한 결론은 도출
- 검정 : 모집단에 대한 주장의 타당성을 표본을 통해 점검 (표본에서 나타나는 증거가 우연한 것인가 아니면 모집단에 실제로 존재하는가?”의 점검)
- 수리통계학(이론통계학) : 통계추론과 관련 있는 통계학으로 확률이론과 추론이론으로 구성된다.


2. 데이터 분석

데이터는 관심대상이 되는 사물이나 사건의 속성을 일정한 규칙에 의해 측정, 관찰, 조사함으로써 얻게 된다

1. 데이터
- 단위(unit) : 관찰되는 항목이나 대상
- 관찰값(observation) : 각 조사 단위로부터 기록된 정보나 특성
- 변수 (variable) : 각 단위에 대해서 측정되는 특성
- 데이터(data) : 하나 이상의 변수에 대한 관찰 값의 모음, 관심대상이 되는 사물이나 사건의 속성을 일정한 규칙에 의해 측정, 관찰, 조사
- 변동(variability) : 똑같은 대상에 대해 여러 번 반복해서 측정하더라도 변동은 있게 마련이다. 데이터에 변동이 있기 때문에 데이터로부터 유도된 결론은 불확실하다.
- 원자료(raw data) : 표본에서 조사된 처음 자료

2. 변수의 종류
질적 변수(qualitative variable) : 조사대상을 특성에 따라 범주로 구분하여 측정된 변수 -> 원그래프나 막대그래프
- 명목형(nominal): 변수가 크기나 순서에 대한 의미가 없고 이름만 의미를 부여할 수 있는 경우 (종교, 성별, 지지정당)
- 순서형(ordinal): 변수가 어떤 기준에 따라 순서에 의미를 부여할 수 있는 경우 (교육수준, 건강상태)
양적 변수(quantitative variable) : 길이, 무게와 같이 양적인 수치로 측정되거나 몇 개인가를 세어 측정하는 변수로 덧셈, 뺄셈 등의 연산이 가능 -> 점도표, 줄기-잎그림, 히스토그램, 도수분포표
- 이산형(discrete): 변수가 취할 수 있는 값을 하나하나 셀 수 있는 경우 (자녀수, 불량수)
- 연속형(continuous): 변수가 구간 안의 모든 값을 가질 수 있는 경우 (길이나 무게)

3. 변수의 분포 : 어떤 변수가 취할 수 있는 가능한 전체 값에 대해 각 값이 발생할 수 있는 빈도를 표현한 것으로 그래프, 수치 또는 모형을 이용해서 요약한다.
- 도수분포표 : 데이터 각 값의 출현도수를 세거나 전체 데이터를 몇 개의 구간으로 나누어 각 구간에 속하는 데이터의 개수를 세어서 정리한 표
- 원그래프(pie chart) : 전체를 구성하는 부분의 구성비를 나타낸다
- 막대그래프(bar graph) : 각 범주에 속한 비율을 하나의 막대로 나타낸다
- 히스토그램(histogram) : 작성된 도수분포표의 계급을 밑변으로 하고, 그 계급에 포함되는 데이터의 도수에 비례하는 면적을 가진 직사각형을 나열하여 작성한 그래프
- 줄기-잎 그림(stem-and-leaf plot) : 데이터의 수가 많지 않을 때 데이터의 분포를 빠른 시간 내에 쉽게 나타내는 방법으로 원래 값을 그대로 갖고 있다.
- 점도표(dot plot) : 실선 위에 데이터의 분포를 빠른 시간 내에 그릴 수 있는 간단한 그래프이다.
- 특이점(outlier, 이상치) : 대부분의 데이터가 모여 있는 군집(cluster)으로부터 멀리 떨어져 있는 데이터를 말한다. 원인 규명이 필요하다.
- 시계열그래프 : 관찰값이 시간의 변화에 따라 수집된 경우 시간의 흐름에 따라 또는 데이터가 수집된 순서대로 그래프로 표현한 꺾은선 그래프, 경향(trend)나 계절요인(seasonal variation)

4. 도표와 그래프 작성 시 유의사항
- 그래프는 데이터만 보고는 파악할 수 없는 데이터 전체의 중요한 의미를 전달해 준다. 빠른 대화 방법, 강력한 의미 전달, 명확한 설명력, 흥미 유발
- 여러 유형의 데이터를 접할 때 데이터의 특징을 가장 잘 나타낼 수 있는 적합한 표나 그래프를 작성하는 것은 매우 중요하다.
- 통계분석을 위해서는 우선 수집된 데이터의 전체 경향(특이점, 분포형태(좌우대칭/치우침) 등)을 파악해야 한다.

5. 데이터의 수치 요약 : 데이터를 수치로 요약하는 것은 데이터가 내포한 정보를 효과적으로 전달하는 통계적 방법이다.
- 데이터의 중심위치(대표값)의 측정 :
- 평균(산술평균, 조화평균, 기하평균, 가중평균) : 무게 중심, 모든 데이터 반영, 이상치(특이점)에 민감, 유일성
- 중앙값(median) : 이상치에 영향을 받지 않는다. 중앙값을 중심으로 좌우 분포 면적이 같다
- 최빈값(mode) : 질적데이터 분석에만 사용 (양적데이터의 경우에는 사용하지 않음), 계산이 쉽고 존재하지 않을 수도 있다.

6. 데이터의 변동(산포) 측정 : 데이터가 얼마나 넓게 퍼져 있고 분포되어 있는가
- 범위 : 최대값과 최소값의 차
- 사분위수 : 중앙값(Q2), IQR=Q3-Q1,
- 백분위 수 (p%) : 전체 데이터 중에서 p%는 이 값보다 작고, (100-p)%의 데이터는 이 값보다 크게 되는 값을 의미한다. (Q3=75%)
- 다섯 수치 요약 : min, max, Q1, Q2, Q3
- 분산(표준편차) : 데이터가 평균을 중심으로 얼마나 광범위하게 분포하고 있는가를 나타내는 통계량이다.
- 변이계수(=표준편차/평균) : 두 개 이상의 데이터에 대한 퍼짐의 정도를 비교하기 위한 값으로 단위에 무관하다


3. 확률과 확률변수

1. 세계관의 변화
19세기 : 기계론적 세계관 (뉴톤 물리학)
- 과거의 일의 결과로 미래의 일이 결정된다고 생각,
- 오차 : 세계를 측정할 때마다 결과가 다르게 나오는 불확실성, 측정오차 문제로 인해 우리가 알고자 하는 세계인 모집단에 대한 불확실성 인식
20세기 : 확률적 세계관 (양자 역학)
- 세계를 더 이상 기계적으로 볼 수 없고, 불확실성을 감안하여 살표보아야 한다, 불확실성의 측정
- 확률 : 확률은 17세기 파스칼과 페르마의 도박 문제 해결과 관련한 연구로 시작
- 통계추론은 불확실한 사실에 대한 결론이나 예측에 필요한 이론과 방법이므로 반드시 확률의 이해 필요

2. 확률의 정의 : : 통계적 실험에서 한 사건이 발생하는 가능성
- 고전적 정의 : 사건의 집합 / 표본 공간의 집합 (또는) 사건A에 속하는 원소에 대한 측도 / 표본공간의 전체 원소에 대한 측도
- 상대도수적 정의 : 수없이 반복 시행했을 때, 사건이 발생하는 비율 (상대도수)
- 공리적 정의 : 확률이 0과 1사이의 숫자를 갖고, 전체 합이 1이고, 서로 배반일 때, (합집합=덧셈) 성립하면 확률이다.

- 확률적 실험(통계적 실험):실험의 결과가 구체적으로 어떤 것인가는 알 수 없지만 전체 가능한 모든 결과들을 알고 있고 반복이 가능한 경우
- 표본공간(sample space) : 통계적(확률적) 실험이나 조사에서 일어날 수 있는 모든 가능한 결과의 집합
- 사건(event, 사상) : 표본 공간의 한 부분집합, 일어날 수 있는 모든 가능한 결과 중에서 특정한 성질을 갖는 결과의 집합

3. 확률변수(random variable) : 표본공간의 각 원소에 하나의 실수값을 대응시켜 주는 함수
- 표본공간을 정의역으로, 실수를 공역으로 하는 함수이다
- 사건을 숫자로 변환해 주는 함수
- 확률적 실험에서 실험결과를 관심의 대상이 되는 수 값으로 나타낸 것
- 확률분포 : 확률적 실험의 규칙성으로 각 값 또는 구간의 확률을 가진다. 확률변수 X로부터 유도되는 확률측도 P를 X의 확률분포라고 한다.


4. 확률분포와 표본분포

1. 확률 분포
- 모집단: 표본공간의 모든 사건에 따라 분포. 모집단은 확률변수의 값에 따른 확률분포를 가진다.
- 확률분포 : 확률변수의 값에 따라 확률이 어떻게 분포하는 지를 합이 1이 되도록 나타낸 것, 특성값인 모수를 바탕으로 한 수학적 함수 형태
- 이산형 확률변수 : 베르누이분포, 이항분포, 포아송분포, 기하분포, 초기하분포, 음이항분포
- 연속형 확률변수 : 연속형 균등분포, 지수분포, 정규분포, 감마분포, 베타분포, 로그정규분포, 와이블분포, 코쉬분포

2. 표본 분포
- 모수를 추정하려면 모수추정에 적합한 확률표본의 함수인 통계량(statistic)을 고려해야 한다. 대표적인 통계량으로는 표본평균과 표본분산이 있다.
- 통계량도 확률변수라 할 수 있고, 나름의 확률분포를 가진다. 통계량의 분포를 특히 표본분포(sampling distribution)이라 한다.
- 표본분포 (sampling distribution) : 표본 통계량의 확률분포, 표본은 서로 독립이고 동일 분포
- 중심극한정리 : 임의의 모집단에서 표본크기(n)가 충분히 크면 (n>30), 표본평균의 분포는 근사적으로 정규분포를 따른다.
- 종류 : 카이제곱분포(표본 분산), t분포(표본 평균), F분포(표본 분산비)


5. 추정과 검정

1. 통계적 추론 : 확률 분포는 몇 개의 모수를 바탕으로 작성된 수리적 함수이다. 이를 근거로 불확실한 사실에 대한 결론이나 예측을 한다
- 그 모집단으로부터의 표본에 근거하여 모집단에 대한 정보를 알아내는 과정으로 추정(estimation)과 검정(testing)으로 구분된다.
- 빈도론자(frequentist)에 의한 추론 : 고정된 모수를 무한히 반복되는 표본에 대한 통계량의 표본분포를 바탕으로 추정하거나 검정, 공정성
- 베이진안(Bayesian)에 의한 추론 : 표본확률에 사전확률을 더한 사후확률로 추정. 모수는 확률분포를 가짐, 유연성
- 최선의추론은 빈도론자와 베이지안의 원리를 모두 적용하고 종합적으로 접근해야 한다. 베이지안의 유연한 모형접근과 빈도론자의 공정한 모형 평가 방법을 혼용해야 한다.

2. 통계적 추정
- 통계정 추정 : 표본 데이터에 근거해 모집단 특성값(평균, 분산, 비율)을 제시하는 과정이다. 점추정과 구간 추정이 있다.
- 추정량 : 확률표본의 함수인 통계량, 모수를 추정하는 데 사용되는 통계량
- 추정(estimation)은 표본으로 모집단에 대한 결론을 도출한 것인데, 점추정과 구간추정으로 나누어진다.
- 점추정은 모수에 대해 하나의 추정값만 제시하는 것이다.
- 구간추정은 표본분포를 이용하여 모수가 포함되리라고 기대되는 범위로 추정하는 것이다. 구간 추정은 모수추정값과 더불어 정확도를 함께 제시하는 것이다.

3. 통계적 가설검정
- 통계적 가설검정은 두 개의 가설을 설정하고, 두 가설 중 어느 가설이 적당한지 파악하는 것이다.
- 가설을 세우고 가설을 입증하기 위한 데이터를 수집하고 가설검정에 적합한 도구인 검정통계량값을 구한 후 귀무가설하의 검정통계량의 분포와 비교하여 유의수준을 고려하여 최종판단을 하게된다.
- 통계검정 : 모집단에서 추출한 확률표본으로부터 새로운 가설(대립가설)이 타당한지 살펴보는 방법, 기존의 가설(귀무가설) 하의 통계량 분포를 도출
- 귀무가설 – 귀무가설을 '과거나 현재의 사실'로 두고, 확실한 근거가 없는 한 귀무가설을 채택하는 결정방식이다. (예:피고인은 무죄이다)
- 대립가설 – 새로운 사실 또는 현재의 믿음에 변화가 있는 사실 (피고인은 유죄이다), 양측가설과 단측가설로 구분

가설검정의 두가지 오류
- 1종 오류 : 귀무가설이 참인데 기각하는 오류 (피고인인 무죄인데, 귀무가설을 기각하는 오류)
- 2종 오류 : 귀무가설이 거짓인데, 기각하지 않는 오류 (대립가설을 채택하지 않는는 오류) (피고인이 유죄인데, 귀무가설을 기각하지 않는 오류)
- 통계적 가설검정은 1종 오류를 중시하는 의사결정을 한다. 따라서 1종 오류의 최대한계를 정하고, 다음에 2종 오류를 줄이게 된다.

4. 주요 용어
- 유의수준 : 제1종 오류가 발생한 확률의 최대 허용한계 (5% - 100번 검정 시행 중 5번은 귀무가설이 옳은데 기각하는 오률를 범할 수 있다는 의미)
- 유의확률(p-value) : (귀무가설이 참이라고 생각하고 구해진 관측값) 보다 벗어날 확률, 귀무가설이 유의(의미가 있을) 확률
- 기각역 : 귀무가설을 기각하는 관측값의 영역으로 검정통계량의 분포와 유의수준을 바탕으로 정한다. 통계량값과 기각역을 비교하여 귀무가설 기각여부를 결정하게된다.
- 검정력 : 틀린 귀무가설을 기각하여 귀무가설의 잘못을 찾아내는 확률, 제2종 오류(베타)가 발생할 확률은 표본크기에 의해서 조절한다.

5. 가설검정과정
1) 귀무가설과 대립가설을 세우고, 유의수준을 결정한다. (단측/양측 검정)
2) 귀무가설하에서 검정통계량이 따르는 분포를 정하고 계산한다.
3) 분포를 바탕으로 유의수준에 해당하는 검정통계량값인 기각역을 찾거나, 통계량값과 관련된 확률(유의확률)을 구한다.
4) 통계량값을 기각역과 비교하거나 유의확률을 유의수준과 비교하여 가설을 검정한다.


6. 통계적 비교

1. 통계적비교 : 두 모집단의 평균을 비교하는 문제로 두 모집단의 평균의 차가 0인가, 크거나 작은가 등을 검정한다.
- 모집단에서 추출된 표본이 서로 독립적 추출된 경우(독립표본)와 아닌 경우(대응표본)에 따라 다르다.
- 금년도 대졸사원의 초임이 남녀별로 차이가 있을까? (독립표본)
- 두 생산 라인에서 생산되는 제품의 무게에 차이가 있을까? (독립표본)
- 타자속도를 증가시키기 위해서 타자수에게 실시한 특별교육이 과연 타자속도의 증가를 가져왔을까? (대응표본)

2. 실험계획법 : 실험을 합리적으로 설계하는 방법.
- 실험을 통해 얻은 데이터에 대해 의미 있는 통계분석을 하려면 요인의 각 수준에서 실험단위의 배정 또는 실험순서를 임의로 배정하는 랜덤화를 구현해야 한다.
- 분산분석: 특성값의 변동을 제곱합으로 나타내고, 이것을 시험과 관련된 요인의 제곱합과 오차의 제곱합으로 분해하여 오차에 비해 영향이 큰 요인이 무엇인가를 찾아내는 분석방법이다.
- 일원배치법 : 어떤 관심이 있는 특성값에 대하여 하나의 요인의 영향을 조사하기 위하여 쓰이는 실험계획법이다.
- 이원배치법 : 문제가 되는 요인을 두 개 취하여 행하는 실험으로 실험은 완전랜덤화하여 실시해야 된다.


7. 통계 모형 : 상관분석과 회귀분석

1. 상관분석(correlation analysis) : 두 변수 간의 상호의존 관계가 있을 경우 이 관계가 어느 정도 밀접한가를 측정하는 분석 방법
- 산점도 : 두 변수 간의 상관성을 시각적으로 확인할 수 있다.
- 공분산(covariance, Cov(x,y)) : 두 변수 간의 관계 정도를 구체적인 수치로 나타내 주는 측도
- 표본상관계수 : 변수의 종류나 특정 단위에 관계없는 측도로 표본공분산을 표본표준편차로 나누어 표준화시킨 것이다. -1에서 +1의 값을 가지며, 단지 두 변수의 선형관계만을 나타내는 측도이다

2. 회귀분석(regression analysis) : 변수 간의 관계를 나타내는 수학적 모형을 설정하고, 변수로부터 측정된 값을 이용하여 모형을 추정하고, 변수 간의 관계를 설명하고 예측하는 통계적 분석방법이다.
- 변수 간의 함수적 관련성을 구명하기 위하여 어떤 수학적 모형을 가정하고, 이 모형을 측정된 변수의 데이터로부터 추정하는 통계적 분석방법이다.
- 수학적 모형 : 회귀식
- 영향을 받는 변수 : 종속변수 (반응변수), Y
- 영향을 주는 변수 : 독립변수 (설명변수), X
- 잔차분석(residual analysis) : 오차항은 관측될 수 없는 값이기 때문에 일종의 추정량인 잔차를 이용하여 이 가정의 타당성을 조사