JANGUN


표본 조사론


지음 : 이기재 공저



목차

제1장 서론
제2장 단순임의추출법
제3장 보조정보를 이용한 추정
제4장 층화임의추출법
제5장 계통추출법
제6장 집락추출법
제7장 2단집락추출법
제8장 표본조사의 설계
제9장 비표본오차
제10장 표본조사 사례


제1장 표본조사 개요

통계조사
- 복잡한 사회 또는 집단의 어떤 현상을 수량화 함으로써 객관적이고, 구체적인 특징을 파악하기 위한 일련의 과정
- 실험 : 연구자가 실험환경을 통제하고 조작을 가함으로써 특정 처리의 효과를 파악하는 과정
- 통계조사는 모집단의 특성에 대한 정보를 얻기 위해 자료를 수집하는 것이며, 크게 전수조사와 표본조사로 구분된다.
- 표본조사는 전체 모집단 중에서 일부의 부분집단인 표본을 조사한 후, 표본의 데이터를 이용하여 모집단의 특성을 추측하는 방법이다.
- 표본조사는 전수조사에 비해 경제성, 신속성을 지니며, 보다 심도 있고 정확한 조사를 할 수 있다는 장점을 지닌다.
- 더욱이 파괴검사의 경우 필수적이라고 할 수 있다.

용어 정리
- 기본단위(elementary unit)는 표본조사에서 필요한 정보를 얻기 위해 관찰, 면접을 할 때 조사의 대상이 되는 요소로 조사 단위 또는 단위 (최소의 요소)로 한다.
- 모집단(population)은 조사목적에 의하여 규정되는 모든 기본단위의 집합이다.
- 추출단위(sampling unit)는 표본추출 단계에서 구체적으로 뽑히는 단위이다.
- 추출틀(sampling frame)은 모집단 내의 모든 추출단위들의 리스트이다. 조사가능 모집단의 구체적 표현이다.
- 추출틀이 불완전하면 왜곡된 통계가 작성될 수 있다.
- 표본조사를 위해서는 먼저 관심의 대상이 되는 모집단을 정의한 후, 적절히 추출단위를 결정하고 그에 따라 추출틀을 마련한다.
- 마련한 추출틀로부터 표본을 어떻게 선택할지를 설계하여 표본을 추출하고, 추출된 표본을 조사하여 데이터를 얻는다.
- 마지막으로 얻어진 데이터를 이용하여 모집단의 특성에 대한 효율적인 추정값을 구한다.

표본설계(design of sample survey)
- 모집단을 잘 대표할 수 있는 표본을 추출하고 추출된 표본에서 조사된 정보를 이용하여 모집단의 특성값을 추정하는 전 과정
- 모집단 특성에 대한 대표성 지니면서도 경제적 추출법
- 표본오차를 목표수준 이내로 유지하면서 비용을 최소화하는 표본 크기 결정
- 효율적인 추정 방식

확률추출법
- 표본추출의 방법으로는 크게 확률추출법과 비확률추출법으로 나눌 수 있다.
- 따라서 오늘날 과학적인 표본조사에서는 표본의 자료로부터 얻어지는 추정량의 통계적 신뢰성을 확률적으로 나타낼 수 있는 확률추출법을 사용하게 된다.
- 추출단위에 대하여 사전에 정해진 추출확률에 따라 표본을 추출하는 방법
- 단순임의추출법, 층화추출법, 계통추출법, 집락추출법
- 표본이 모집단의 특성이나 구조를 잘 반영하여 조사결과를 모집단으로 일반화 가능
- 추정량의 통계적 오차를 확률적으로 계산 가능함

비확률추출법
- 비확률추출법은 표본의 객관적인 추출확률을 구할 수 없다.
- 전형법과 할당법
- 조사자의 주관적 판단에 의해 표본 추출
- 한계 : 추정값의 정확성 평가 불가, 과학적인 조사방법이 아님

표본조사의 궁극적인 목적은 모집단을 대표하는 표본을 조사하여 모집단 특성값인 모평균이나 모총계, 모비율 등의 모수에 대한 효율적인 추정량을 얻는데 있다.

표본추출변동
- 동일한 모집단에서 같은 표본추출방법으로 같은 크기의 표본을 추출할지라도 각 표본에서 계산된 추정량의 값은 표본마다 달라진다. 이렇게 추정량의 값이 표본마다 달라지는 것
- 확률표본으로부터 얻어지는 추정량은 표본추출변동으로 인하여, 그 값이 변하지만 표본추출에 따른 분포를 따르게 된다.

표본분포(sampling distribution)
- 같은 크기의 확률표본을 무한 반복해서 추출할 때 각 표본으로부터 계산되는 추정량이 이루는 분포
- 중심극한 정리 : 표본크기가 커지면 표본 평균은 근사적으로 정규분포를 따른다.

추정
- 표본오차(sampling error)는 표본에서 구한 결과와 센서스의 결과(모수)의 차이로 모집단의 일부를 표본추출하여 조사하여 추정함으로써 발생하는 우연적 오차
- 표본오차 = 모집단의 참값(모수) – 모수에 대한 추정값
- 바람직한 추정량이 되기 위해 요구되는 두 가지 중요한 성질은 비편향성과 효율성이다.

표본오차의 통계적 표현
- 추정량의 표준오차가 작을수록 추정량의 상대표준오차도 작아진다.
- 상대표준오차가 작을 때 추정량의 정도가 높다고 하며 그러한 값들은 믿을 만한 값으로 받아들여진다.
- 비표본오차 : 조사의 계획 단계부터 자료분석이나 보고서 작성의 최종 과정까지 부주의나 실수 또는 원인을 알 수 없는 이유로 생기는 오차


참고



제2장 단순임의추출법

단순임의추출법 (Simple Random Sampling Without Replacement: SRSWOR)
- 단순임의추출법이란 모든 가능한 경우의 표본들이 추출될 확률을 동일하게 해주는 표본 추출법이다.
- 아무렇게나 추출한다는 뜻이 아니고, 추출 시 일체의 작위를 배제한다는 뜻임. (추출자의 선택 편향을 제거하기 위한 수단)
- 단순임의추출법은 난수표에서 난수를 발생시켜 표본을 추출한다.
- 가장 단순한 방법의 확률추출법으로 다른 표본추출법의 이론적인 기초가 됨
- 소규모 조사나 예비조사(pilot survey)에서 주로 사용됨
- 모집단의 어느 부분도 과대하게 또는 과소하게 반영하지 않음

모집단
- 크기가 N인 모집단에서 반복이 없는 단순임의추출법으로 크기 n인 표본을 추출



- 모총계의 추정량


- 모비율 추정량


표본의 크기 결정
- 기본원칙 : 목표정도(허용오차)의 범위 내에서 가능한 한 표본크기 작게 함
- 목표정도(target precision) : 표본조사에서 목표하는 허용오차의 한계
- 절대오차의 한계 : 추정량의 오차한계가 일정 값 이내
- 상대오차의 한계 : 추정량의 변동계수가 일정 비율 이내
※ 표본의 크기 ~ 추정의 정확성 ~ 조사비용




제3장 보조 정보를 이용한 추정

표본조사 이론의 두 가지 관심사
- 대표성과 경제성을 고려한 좋은 표본 추출
- 주어진 표본 정보를 잘 활용하는 효율적인 추정법
- 보조변수를 활용한 추정량 : 비추정법, 회귀추정법

비추정법
- 두 변수가 원점을 지나는 직선관계일 때 적용
- 두 변수간의 비 : R
- 비(R)의 추정량 : r
- r의 분산 추정량
- 모수 R에 대한 100(1-α)% 신뢰구간 :
- 모총계의 추정
- 모평균의 추정
- 표본평균의 분산 추정량


회귀추정 :
- 두 변수가 원점을 지나지 않는 직선관계일 때 적용
- 상관계수의 절대값이 1에 가까울수록 효율적이다



제4장 층화임의추출법

층화(stratification)
- 모집단을 서로 겹쳐지지 않게 몇 개의 부분군으로 나누는 일
- 층화는 층화임의추출법의 효율을 결정하는 가장 중요한 작업

층(stratum)
- 모집단을 겹치지 않게 몇 개의 부분군으로 나누었을 때 각각의 부분군

층화임의추출법(stratified random sampling)
- 모집단을 먼저 서로 겹치지 않도록 여러 개의 층으로 분할한 후, 각 층별로 단순임의추출법을 적용시켜 표본을 얻는 방법




장점
- 단순임의추출법에 비해 추정의 정도를 높일 수 있음
- 같은 층에 속한 단위들이 동질적(homogeneous)일수록 효과적
- 전체 추정뿐 아니라 각 층별로도 추정도 가능
- 지역별, 특성별 통계작성이 가능
- 표본의 대표성 제고 및 조사관리 편리, 조사비용 절감

층화변수(stratification variable)
- 모집단을 몇 개의 층으로 나누려고 할 때 각 추출단위가 어느 층에 속하는지를 구분하기 위해 기준으로 사용되는 변수
- 층화변수의 선택 시 고려사항 : 주변수와의 관련성 / 활용 가능한 보조정보의 종류 / 통계의 작성단위 : 전국 or 시도별 or 시군별
- 사전에 모집단 단위들의 정보를 쉽게 알 수 있으면서도 조사 하고자 하는 주변수와 밀접한 관련이 있는 보조변수
- 질적 층화변수 : 변수값에 따라 층 구분
- 양적 층화변수 : 층의 경계점을 나누는 방법 필요

층의 최적경계점(optimum point of stratification)
- 층화변수가 양적 변수
- 모집단을 개의 층으로 나누려면 개의 경계점을 결정해야 함
- 주어진 여건 하에서 추정값의 분산을 최소화시킬 수 있도록 경계점 결정
- Dalenius & Hodges의 누적도수제곱근법

표본 크기의 결정


표본배분에 영향을 미치는 요인
- 각 층 내의 추출단위들의 수 :
- 각 층 내에서 변동의 정도 :
- 각 층에서 추출단위를 조사하는데 드는 비용 :

표본배분의 일반적인 원칙
- 층 내의 추출단위 수가 많을수록 표본을 많이 배분
- 층 내의 단위들이 이질적이어서 이 클수록 표본을 많이 배분
- 조사비용이 많이 드는 층에 대해서는 가능하면 표본을 적게 배분

비례배분법
- 각 층 내의 추출단위 수에 비례하여 표본크기를 배분하는 방법
- 층 내의 변동과 조사비용은 고려하지 않고 층의 크기만을 고려한 방법
- 층별 변동에 차이가 없고 층별로 조사비용이 비슷한 경우에 알맞음
- 일반적으로 여론조사, 의식조사 등에 많이 활용됨

네이만배분법
- 각 층의 크기와 층별 변동의 정도를 동시에 고려한 표본배정 방법
- 변동이 큰 층에 대해서는 상대적으로 많은 표본을 배정
- 층별 조사비용은 별 차이가 없고, 변동의 정도가 많이 나는 경우에 적당

최적배분법
- 주어진 비용 하에서 추정량의 분산을 최소화시키거나 주어진 분산의 범위 하에서 비용을 최소화시키는 방법
- 층별로 단위당 조사비용에 차이가 있는 경우에 쓰이는 방법

사후층화
- 단순임의표본을 이용할 경우는 이미 알고 있는 모집단 특성 비율을 반영 못함
- 단순임의추출을 이용했지만 추정단계에서 모집단의 사전정보를 이용
- 층화임의추출 : 표본설계 단계에서 층화변수를 기준으로 층화
- 사후층화 : 표본추출이 이루어지고 난 이후 표본의 데이터를 층화

비교
- 효과적으로 층화를 할 경우 층화임의추출법은 단순임의추출법에 비해 매우 효율적이다.
- 하지만 층화가 적절하게 이루어지지 못한다면 오히려 단순임의추출법보다 효율이 떨어질 수도 있다.
- 층화변수가 조사하고자 하는 주변수와 상관이 높을수록 효과적인 층화가 된다.



제5장 계통추출법

1/k 계통추출법(1-in-k systematic sampling)
- 모집단의 추출틀에서 처음의 k개 단위들 중에서 랜덤하게 하나의 단위를 추출하고, 그 이후 매 번째 간격마다 하나씩의 단위를 표본으로 추출하는 표본추출방법
- 추출틀에서 처음 k개 중에서 하나의 난수 선택 r (1 < r < k)
- 랜덤출발점(starting point) : r
- 이후 표본 추출 : r, r+k, r+2k, …
- 추출간격(sampling interval) : k = N/n
- 계통추출은 k개의 집단(표의 열에 해당)에서 하나의 집단을 뽑는 것과 동일함


장점
1 표본추출이 간편함 (표본추출과정의 선택오차(selection error)를 줄일 수 있음)
2 단순임의추출법의 대용으로 사용할 수 있음
3 일반적으로 모집단의 전체를 잘 반영함

단점
- 조사된 표본자료로부터 추정량의 표준오차를 계산할 수 없음
- 단순임의표본으로 가정하여 표본오차 추정
- 모집단의 유형에 따라 실제보다 과대 또는과소 평가될 수 있음
- 계통표본은 추출틀의 형태에 따라 추정의 정도(精度)에 차이가 생김
- 추출틀이 주기성을 갖고 있을 때는 계통추출법을 사용하면 곤란함
- 계통추출법을 적용하기에 앞서 모집단에 대한 충분한 검토가 필요함

모집단의 유형
- 랜던 모집단
- 순서 모집단 : 추출단위가 관심변수 값의 크기 순으로 나열되어 있는 경우
예) 소득을 추정할 때 과거 소득 자료 크기 순으로 모집단을 나열한 경우 (급내상관계수값이 음수로 나타남), 효율적임
- 순환 모집단 : 조사단위의 배열이 관심변수 값을 기준으로 주기적으로 변동하는 경우 (급내상관계수가 양수), 비효율적임

반복계통추출법
- 여러 개의 임의출발점을 택하여 여러 개의 계통표본을 뽑는 방법
- 모집단에 대한 가정 없이 추정량의 분산 계산 가능



제6장 집락 추출법

집락추출법(cluster sampling)
- 기본단위들로 구성된 집락을 만들어, 먼저 집락을 추출하고 추출된 집락 내의 일부 또는 전체를조사하는 방법을 말한다.


장점
- 추출틀 마련이 간편함 : 표본으로 추출된 집락 내의 조사 단위에 대한 명부만 필요함
- 조사 비용과 노력을 줄일 수 있음 : 뽑힌 표본이 서로 인접하여 조사가 편리함
단점
- 같은 표본크기의 다른 표본추출법에 비해서 추정의 정확도는 떨어짐

모수 추정
- 집락의 크기가 동일한 경우와 그렇지 않은 경우로 나누어 추정한다.

집락내 상관계수

- 집락 내 기본단위들이 이질적으로 구성되어 집락내분산이 큰 경우에 집락추출법이 효과적임
- 집락 내의 단위들이 동질적인가 아니면 이질적인가를 나타내는 측도
- 0 : 완전히 랜덤
- 음수 : 집락간 분산이 적고, 집락내 분산이 큰 경우로 OK
- 1 : 집락내 분산이 없는 경우로, 동질적인 집단을 의미, 즉 비교과적임

설계효과(design effect, DEFF)

- 어떤 표본추출법과 같은 크기의 단순임의추출법을 추정의 정확도 측면에서 비교
- 층화추출법 : 설계효과(DEFF)가 1보다 작게 나타남
- 집락추출법 : 대개 설계효과(DEFF)가 1보다 크게 나타남
- 대부분의 경우 집락내상관계수는 양수값임 : 단순임의추출법에 비해서 추정의 정확도가 떨어짐

확률비례추출법
- 모집단을 구성하는 집락들을 같은 확률로 추출하지 않고 집락의 규모측도에 비례하여 추출하는 방법
- 각 집락을 집락의 크기에 비례하여 뽑는 방법이 일반적으로 사용되는 방법임

규모측도(measure of size : MOS)
- 조사항목과 상관관계가 높은 것을 채택하면 추정의 효율이 높아짐
- 흔히 규모측도로 사용되는 것은 본 조사 전에 실시된 센서스 결과
- 사전에 알려진 집락의 크기 에 비례하여 복원확률비례추출



제7장 2단 집락추출법

2단집락추출법
- 우선 1단계에서 모집단의 집락들 중에서 표본집락을 추출하고,
- 2단계에서 추출된 표본집락 내의 일부 단위들을 추출하여 조사하는 방법
- 이 방법은 집락추출법과 비교할 때 추정의 정확도가 높아지고,
- 표본 집락 내의 기본단위에 대한 추출틀만 마련되면 적용할 수 있어 널리 사용되고 있다.

장점
- 다른 표본추출법에 비해 조사가 편리하고, 조사비용이 적게 듬
- 비교적 쉽게 자체가중설계를 할 수 있음
- 우리나라의 행정조직과 같이 모집단이 여러 단계의 계층적인 조직으로 구성되어 있는 경우에 효과적임

집락추출법 : 표본집락 내의 모든 기본단위를 조사
- 추정량의 변동 : 집락간변동(variation between cluster)에 의함

2단계집락추출법
- 추정량의 변동 : 집락간 변동과 집락내 변동 모두에 의해서 영향

자체가중표본 (self-weighting sample)
- 표본을 구성하는 각 조사단위의 추출확률이 같은 표본
- 추정과정이 간편하고, 추정의 정확도도 높아짐
- 등확률추출방법 (EPSEM : Equal Probability Sampling Method)
- 2단집락추출법에서 자체가중표본을 얻는 방법으로는 PSU를 등확률로 추출하는 방법과 확률비례추출법을 이용하는 방법이 있음
- 자체가중표본을 이용하면 표본으로 추출된 모든 조사단위가 같은 가중치를 갖기 때문에 추정이 간편하고 효율적임



제8장 표본조사의 설계

표본조사의 절차

1. 조사 목적 : 이용자의 요구 조건을 참고하여 명확히 기술할 것, 조사목적에 합당한 모집단을 규정해야 함
2. 모집단의 정의 : 목표모집단, 조사모집단
3. 조사 방법 : 조사 시기, 조사 횟수, 자료수집방법, 측정도구 고려 (비용과 조사결과의 질은 자료수집방법과 밀접하게 관계)
4. 표본설계 : 표본조사과정의 핵심적인 절차
- 추정치에 대한 허용목표오차 결정
- 추출틀, 추출단위 및 조사단위 결정
- 표본크기 결정 : 비용과 목표정도 고려
- 표본추출방법 결정 : 표본오차의 최소화, 추정량과 분산의 직접 계산 가능 여부, 예산, 조사인원, 요구정도의 충족성, 표본조사 실행 용이성, 과거의 유사한 조사의 존재 여부 검토
5. 예비조사 :
- 주요 연구변수의 분산에 대한 사전정보 수집
- 실제조사에서 필요한 조사비용에 관한 정보
- 대규모조사에서 조사일정 및 설문지 타당성 검토
- 조사원의 훈련을 통한 조사 업무 숙달
6. 본 조사
- 조사목적, 내용, 방법에 관한 충분한 교육과 훈련
- 비표본오차 관리 : 조사업무통제와 조사원 감독
7. 정리분석 및 발표

자료수집 방법 결정 시 고려사항
1. 표본추출법 : 전화조사, 우편조사, 개별면접조사
2. 모집단의 형태 : 교육 수준, 동기 부여 등
3. 질문형식 : 개방형 (캐묻기), 폐쇄형 (자기 응답식)
4. 응답률 : 요구정도의 크기에 따라
5. 비용
6. 컴퓨터보조자료수집
- 복잡한 질문내용 프로그램 통제
- 사전 질문 정보와 면접원의 경험 활용하면 조사목적을 효과적으로 달성
- 응답의 일관성을 점검하여 자료수집단계에서 보완수정 가능

컴퓨터보조전화면접 (CATI : computer assisted telephone interviewing)
- 사회조사의 80% 이상을 전화조사로 수행
- 조사대상자 선정과 조사 진행 컴퓨터 프로그램 시행
장점
- 질문의 양식과 순서의 관리가 용이
- 자료입력, 데이터 에디팅과 분석이 신속 정확함
단점
- 정확한 프로그램의 개발에 시간과 비용 필요
- 컴퓨터와 관련한 기계적인 문제점에 대한 우려
- 대화형 질문에서 보조적인 정보를 이용하는데 한계

컴퓨터보조개별면접 (CAPI : computer assisted personal interviewing)
- 컴퓨터화면을 보고 대답을 직접 또는 면접원이 입력하는 조사방법

개별면접조사의 장단점
- 응답자의 협조 확보에서 효과적임
- 캐어묻기로 적절한 응답획득 가능
- 복잡한 질문에서 정확한 정보수집 가능
- 응답자 답변 외에 관찰 등 보조정보 수집 가능
- 상대적으로 비용과 조사기간 과다 소요
- 일정 수준 이상의 교육훈련을 받은 조사원 필요

전화조사의 장단점
- 개별면접조사에 비해 비용 감소 및 조사기간 단축
- 우편조사에 비해 조사원 통제 용이
- 무작위 전화 걸기 등으로 접촉범위가 광범위함
- 우편조사에 비해 응답률 높음
- 전화 없는 가구 접촉 한계 : 과소범위오차
- 응답자 직접관찰 등의 한계 : 보조정보 이용불가
- 개인적으로 민감한 내용 조사 한계

자기 응답식 설문조사의 장단점
- 집단조사 응답률 높음
- 폐쇄형 질문에 적절함
- 면접원 영향 배제한 응답 수집가능
- 일련의 유사질문을 물을 수 있음
- 질문지 작성 전문성 요구됨
- 개방형 질문 적합하지 않음
- 응답자 읽고 쓸 수 있는 능력 필요
- 조사목적 질문내용 면접원이 강조 불가함

우편조사의 장단점
- 비교적 비용이 적게 소요
- 최소인원과 설비로 조사가능
- 접근 어려운 조사대상자 조사가능 함
- 심사숙고한 응답 또는 협의를 통한 응답 가능
- 응답자 협력을 유도하는데 한계
- 정확한 주소록 필요함
- 회수율 낮음(약 10% 수준)

온라인조사의 장단점
- 조사비용 상대적으로 낮음
- 시간과 공간을 초월한 응답자 접촉가능
- 응답내용에 따라 질문순서 조정가능
- 자료입력과정 필요 없어 코딩오류 축소가능
- 일반적인 모집단에 대한 대표성 결여
- 대리응답 가능으로 진실성 검증 어려움
- 인터넷 기술에 따라 응답 자료의 질에 차이가 발생할 수 있음

질문지 작성법
- 질문지 작성 시 신뢰성과 타당성 검토 필요함
- 동일한 형식의 질문으로 측정오차 최소화, 정확한 응답
- 설문지 작성은 전문성과 경험이 함께 요구됨

개방형 질문(open-ended question)
- 예비조사에서 사전정보를 얻는 데 사용 가능
- 응답범주에 대한 사전지식이 미흡할 경우에 유용
- 캐묻기 등으로 심층적으로 자료수집가능
- 자료 수집ㆍ분석하는 데 많은 시간 소요

폐쇄형 질문(closed-ended question)
- 주어진 응답범주 중 선택 응답
- 간편한 응답으로 항목 무응답 적음
- 자유롭고 자발적인 응답보다는 무성의한 응답 가능
- 질문지 작성 시 누락 내용 정확한 정보 수집 불가

질문 유형 선택
- 조사의 목적에 합당해야 함
- 심층적인 대답, 응답자가 강한 동기부여 된 경우 : 개방형 질문
- 응답자에 대한 사전지식 : 폐쇄형 질문

설문지 설계법 - 질문순서
1. 처음은 응답이 쉽고 부담 없는 중립적인 내용의 질문으로 시작
2. 가끔 연구목적과 관계 적은 예비 질문 넣음(대답에 익숙하게 함)
3. 인구 사회학적 특성, 개인적으로 민감한 내용 마지막 부분 위치
4. 일반적인 내용에서 구체적인 것으로 옮겨가는 순서로 구성
5. 비슷한 주제 질문 묶어서 함께 질문
6. 질문순서를 잘못 짜면 응답자 대답에 편견 개입 가능
7. 조사주제에 대한 개방형 질문에서 폐쇄형질문으로 진행
8. 전반적인 질문에서 구체적인 질문으로 진행함
9. 선거여론조사 인지도 질문은 선호도 질문보다 앞에 위치
10. 후보 인지도 및 소속정당 지지는 후보 선호 및 지지와 분리 질문



제9장 비표본오차

통계조사 = 우연오차 + 편향


우연오차( variable error)
- 표본오차(sampling error) : 표본추출로 인해 발생한 오차
- 비표본오차(non-sampling error) : 조사기획, 공표과정까지 발생한 오차

편향(bias) : 의도적인 관찰값의 조작, 측정의 잘못
- 비확률변수 특성, 일종의 체계적인 오차
- 추정량의 기대값과 참값간의 차이
- 표본편향(sampling bias)과 비표본편향(non-sampling bias) 으로 구분
- 전수조사에서도 발생, 원인 복잡, 체계적 측정이 어려움
- 편향을 줄이기 위해서는 표본조사 계획 단계, 표본설계, 본조사 과정, 자료집계 및 분석 과정 등의
- 표본조사 전 과정을 철저하게 관리해야 함

표본편향(sampling bias)
- 표본조사를 통해서 모수를 추정하는 과정에서 발생하는 편향
- 발생 원인에 따라 추출틀 편향, 일치성 편향, 상수성 통계적 편향 등으로 구분
- 표본추출의 각 단계에서 발생 가능하고, 방향성을 갖고 있음

표본편향(sampling bias)의 종류
- 프레임 표본편향 : 추출틀 부정확으로 발생
- 일치성 편향 : 일치추정량이지만 편향추정량을 사용할 때 발생
- 상수성 통계적 편향 : 추정법에서 기인한 편향(중앙값)

비표본 편향(nonsampling bias)
- 조사가 불가능한 경우 : 누락된 추출틀에서 표본추출하는 경우, 조사대상자의 일부가 응답거부한 경우
- 조사는 가능하나 정확한 측정을 하지 못한 경우 : 조사단위로부터 정확하게 측정하지 못한 경우에 발생, 응답자의 의도적인 거짓응답(민감한 조사항목), 면접조사 시 의도적인 조작 등, 코딩이나 계산 과정의 실수로 인한 오류

비표본오차
- 표본조사의 전 과정에서 부주의, 실수 등의 이유로 발생한 오차
- 표본조사와 전수조사 모두에서 발생할 있음
- 주요 발생 원인 : 계획단계, 조사과정, 집계과정 중 발생오차
- 무응답오차, 응답오차

통계조사에서 추정치를 계산한 후 추정오차를 산출함
- 표본오차는 추정량의 분산이나 상대표준오차로 평가
- 비표본오차 : 일관성 점검, 표본 점검과 사후표본조사 점검, 외부기록 점검과 품질관리기법, 중복부차표본기법

무응답 대체법
- 평균 대체 : 표본분포 왜곡, 추정량 분산을 과소 추정하는 경향
- 최근방 대체(nearest neighbor imputation) : 모평균이나 모분산 추정에 편향 발생, 편리성이나 비용적인 측면에서 효과적인 대체법
- 회귀 대체(regression imputation)
- 핫덱 대체(hot-deck imputation) : 무응답 대체 층 내에서 무응답 조사단위와 응답 조사단위가 무응답 항목에 대해서 유사할 것으로 가정 하에서 적용함



제10장 표본조사 사례

- 항목 무응답이 있는 경우에 응답자의 응답내용과 기타 보조정보를 이용하여 무응답 항목의 값을 대체값으로 채워 넣는 것을 항목 무응답 대체(imputation)이라 하는데 항목 무응답 대체 방법으로는 평균대체, 최근방대체, 회귀대체, 핫덱대체 등이 있다.
- 개인적으로 민감한 사안 조사에서 직접질문을 할 때는 응답거부 또는 거짓응답으로 비표본오차가 발생하기 때문에 이에 대한 대책방안으로 확률화 응답기법이라는 간접질문방법을 사용한다.
- 주거실태조사는 지역별ㆍ계층별 주거실태 파악을 통해 정부정책수립 및 관련 분야 연구를 위한 기초자료를 제공하는 것을 목적으로 한다.
각 시도별 통계생산을 위해서 7개 특·광역시와 9개 도 지역을 1차로 층화하고, 9개 도 지역에 대해서는 동부와 읍·면부로 2차 층화하였으며, 서울은 4개 권역으로 세분하여 통계작성을 정확성을 높이고자 하였다.
- 표본크기 결정을 위해서 3개 관심변수(아파트 비율, 자가주택 비율, 사용면적)에 대한 목표상대표준오차를 지역별로 차등적용 하였으며, 전체적으로 표본크기는 3,300개 조사구에 33,000가구로 하였다. 16개 시도에서 세부 층별 표본배분은 네이만배분법을 이용하였다.
- 표본추출은 조사구를 1차 추출단위로 하였고, 가구를 2차 추출단위는 하였는데 조사구는 조사구 내의 가구 수에 비례하도록 확률비례계통추출법을 적용하였다.
가구는 선정된 조사구 내의 가구명부에서 계통추출 또는 단순임의추출법으로 추출하였다.
모수추정은 표본가중추정법을 적용하였는데, 가중치는 설계가중치, 응답률 보정, 사후층화보정의 과정을 거쳐서 산출하였다.