수학 산책

[수학 산책] 전체 집단 대표하는 '표본 추출' 잘해야 정확해요

bindol 2022. 3. 18. 09:11

 

[수학 산책] 전체 집단 대표하는 '표본 추출' 잘해야 정확해요

입력 : 2022.03.17 03:30
선거가 끝나면 방송사에서는 '출구조사' 결과를 발표해요. 출구조사(出口調査)는 투표를 마치고 투표장을 나서는 유권자에게 투표 결과를 묻고, 답변을 추려서 최종 선거 결과를 예측하기 위해 하는 건데요. 이때 모든 유권자에게 결과를 묻는 것이 아니라 일부만을 대상으로 조사해요. 그런데도 실제 결과와 비슷한 경우가 많죠. 어떻게 가능한 걸까요?

미국의 유명 잡지인 '리터러리 다이제스트'는 1936년 미국 대통령 선거 당선인을 예측하기 위해 수많은 사람들에게 여론 조사 엽서를 발송했어요. "공화당 후보와 민주당 후보 중 누구에게 투표할 것인지 답변해 달라"는 내용이었죠. 명단은 전화번호부와 자동차 등록부에서 선별했어요.

당시 리터러리 다이제스트는 약 1000만명에게 엽서를 보냈어요. 가구 수 기준으로 보면 3가구당 1집꼴로 보낸 거였죠. 236만7230명의 답변이 왔고, 이를 바탕으로 리터러리 다이제스트는 "공화당의 앨프리드 랜던이 57% 지지를 받아 당선되고, 민주당의 프랭클린 루스벨트는 43%의 지지를 받을 것"이라고 예측했죠.

하지만 미국의 통계학자인 조지 갤럽(1901~1984)은 자신이 세운 여론 조사 연구소를 통해 리터러리 다이제스트와 다른 조사 결과를 냈어요. 갤럽은 5000명의 답변만을 분석했는데, 루스벨트의 당선을 예측한 거예요. 실제 대선에서는 루스벨트가 랜던(37.5%)보다 많은 62.5%의 지지를 얻어 최종 당선이 됐답니다.

리터러리 다이제스트가 갤럽보다 많은 수의 사람을 조사했는데 왜 이런 결과가 나온 걸까요? 유권자 전체를 통계 용어로는 '모집단'이라고 해요. 모집단에서 설문 조사 대상이 되는 표본 선택 과정은 '표본 추출'이라고 하죠.

이 과정에서는 표본이 모집단을 대표할 수 있는지가 가장 중요해요. 적은 수의 사람들에게 의견을 묻더라도 집단 전체에게 묻는 것과 같은 결과를 내야 하기 때문이에요.

1930년대 전화번호부나 자동차 등록부에 주소가 실린 사람들은 대부분 미국의 부유층이었어요. 소득에 따라 집에 전화기나 자동차가 없는 사람도 있었던 거죠. 당시 미국의 고소득층 중에는 공화당을 지지하는 사람이 많았어요. 반면 갤럽은 미국인의 가계 소득 비율에 맞춰 골고루 설문 조사를 진행했어요. 리터러리 다이제스트의 표본은 소득 수준에 따라 지지 정당이 다를 수 있다는 점을 제대로 반영하지 못했던 것이랍니다.

이광연 한서대 수학과 교수