4. 29 재보궐 선거 여론조사의 문제점과 개선방안

본 보고서는 <미디어오늘>에 기고한 “외주 민주주의의 한계… 민의 수렴보다 정치공학적 접근, 비용절감 업계 현실도”(2015년 4월 28일자) 기사의 원본 보고서이다. <미디어오늘>의 양해 하에 보고서로 발간한다.

외주민주주의 시대(Outsourcing Democracy)와 여론조사

2014년 지방선거를 앞두고 새정치민주연합이 기초의원 공천제 폐지 여부를 여론조사로 결정하는 상황에 대해 필자는 한 언론과의 인터뷰를 통해“외주민주주의(outsourcing democracy)”라는 개념을 사용하여 문제점을 지적했다(경향신문 2014/04/12). 외주민주주의 개념은 사실 미국이나 유럽 선거에서 IT기술에 기반한 전자투표(e-voting) 방법이 적용되면서 주로 선거 및 투표 과정 관리에 대한 외주화 현상을 지칭하는 개념이다(Cordella and Willcocks 2010; Daniels 2010; Moynihan 2004). 한국의 경우 기술적 문제보다는 흥행을 노린“정략적 의도”,“정치지도자의 정치협상력 부족”,“책임정당정치의 부재”로 인해 정치적 의사결정 및 공직후보 선출을 여론조사에 위임하는 정치과정의 외주화 현상으로 이해할 수 있다. 2002년 노무현-정몽준 단일화의 방법으로 채택된 이래 여론조사는 민의를 읽는 수단 보다 민의를 명목으로 자신의 입장을 합리화하거나 정치적 무능을 변명하는 수단으로 악용되고 있다(윤종빈 2008; 조진만 2012; 지병근 2010). 후보자 선출은 물론 심지어 헌법 개정마저 여론조사에 맡기자는 주장이 공공연하게 나오고 있는 현실이다(MBC 2011/02/05).

4.29 재보궐선거에서는 선거캠페인조차 여론조사에 의존하는 모습을 보여주었다. 여론조사를 악용하면 얼마나 민주주의에 해악을 미칠 수 있는 지 제대로 보여주고 있다. 4.29 재보궐선거로 서울 관악을, 인천 강화을, 광주서구을, 성남중원 등 4곳의 국회의원 선거거 진행되었는데 특히 관악을과 광주서구에는 새정치민주연합을 탈당한 무소속의 정동영 후보, 천정배 후보가 출마하여 여야 대결은 물론 야권 후보간 갈등으로 주목을 받았다. 선거결과는 [표1]과 같다. 새누리당 후보들이 보도된 각종 여론조사 결과보다 제법 많은 표차로 승리했고, 광주에서는 무소속의 천정배 후보가 당선되었다.

[표1] 4.29 재보궐선거 결과

출처: 중앙선거관리위원회 홈페이지

캠페인을 대신한 4.29 보궐선거 여론조사

이 과정에서 특히 관악을의 경우 캠페인 구호와 정책 홍보를 내세워야 할 현수막을 각 후보는 자신한테 유리한 여론조사 결과를 도배하는 데 활용하였다(그림1 참조). 새정치민주연합의 정태호 후보 측이 인용한 리서치뷰 조사결과(발표일 4월21일)에 따르면 오신환 후보가 36.5%, 정태호 후보 36.7%, 정동영 후보 15.8%로 양자대결구도가 두드러진 조사결과였다. 반면 정동영 후보 측은 4월23일자 브레이크뉴스-휴먼리서치 조사 결과의 조사를 현수막에 인용했다. 이 조사에서는 오신환 후보와 정동영 후보 양자가 각축을 벌이는 결과였다. 새누리당의 오신환 후보도 뒤질새라 CBS노컷뉴스-조원씨앤아이의 4월 20일 발표한 자료를 토대로 오신환 후보가 39.6%, 정태호 후보가 31.4%로 이긴다는 현수막을 내걸었다. 오신환 후보가 인용한 CBS노컷뉴스-조원씨앤아이의 4월 20일 발표 자료의 경우 전체 여론조사 결과는 오신환 36.6%, 정태호 후보 33.1%인데 현수막에는 격차를 더 부각하기 위해 적극적 투표의사층만의 조사결과를 현수막에 홍보했다.

한편, 천정배 후보와 새정치연합의 조영택 후보간 양자대결 구도가 뚜렷했던 광주서울의 조사결과를 보면 폴리뉴스-한길리서치, CBS-조원리서치의 조사결과에서는 천정배 후보가 12%p포인트 가량 앞선 것으로 나타났다. MBN-리얼미터 조사의 경우 조영택 후보 36.2%, 천정배 후보37.9%로 박빙의 구도로 나타났다. [표1]의 실제 선거결과와 비교해보면 앞의 두 조사의 경우 천정배 후보가 압도적으로 승리한 결과와 조사결과가 일치한 반면, MBN 조사는 선거결과와 조사결과 상의 차이가 있었다. 그러나 앞의 두 조사 역시 천정배 후보의 경우 실제 득표율과 이들 여론조사에서의 지지율과는 대략 10~15%p 격차가 있다. 여론조사 결과만으로는 관악을의 선거판세나 여론분포를 정확히 이해하기 어려울 뿐 아니라 오히려 각 후보에게 유리하게 해석할 만한 조사결과들이 난무하여 오히려 유권자들의 혼란을 가져왔다고 할 수 있다.

[그림1] 관악을 여론조사 결과

출처: 중앙선거여론조사공정심의위원회 홈페이지 (http://www.nesdc.go.kr/cop/opinionPoll/opinionPollPublicList.do)

[그림2] 광주서구을 여론조사 결과

출처: 중앙선거여론조사공정심의위원회 홈페이지 (http://www.nesdc.go.kr/cop/opinionPoll/opinionPollPublicList.do)

4.29 보궐선거 여론조사의 문제점

이번 선거에서 여론조사 및 그 보도에 대한 우려가 커진 것은 선거여론조사공정심의위원회(이하 ‘여심위’) 사이트에 공개된 자료를 살펴보면 이들 여론조사 자료의 표본 구성과 조사방법론에 심각한 문제점들이 노출되었기 때문이다. 특히 관악을에서 새정치민주연합의 정태호 후보 측이 인용한 리서치뷰 조사에 대해 서울시공정선거심의원회는 선거법위반혐의가 인정된다고 판단하고 '현수막 철거 명령' 공고문을 보내는 사태까지 발생했다. 이에 대해 정태호 후보 측도 무소속의 정동영 후보가 게시한 브레이크뉴스-휴먼리서치 조사 결과의 조사는 기호와 정당을 누락하여 인지도 높은 정동영 후보에 유리하게 설계된 불공정 조사라고 반격했고, 선거법위반사유로 지적받은 반복가중치 적용의 경우 다른 회사도 사용한 방법이라며 반발했다(매일경제 2015/04/27).

세대 대표성 왜곡하는 표본 : 2030세대 목표표본 42% → 실제 표본은 14~20% 불과

가장 큰 쟁점은 조사 표본의 대표성 문제이다. 중앙선거여론조사공정심의위원회의 홈페이지에 올라있는 자료를 보면 리서치뷰 조사의 경우 세대별 구성비를 고려할 때 64명의 표본을 확보해야 할 19~29세 표본이 31명, 71명을 확보해야 할 30대에서도 31명을 확보하는 데 그쳤다. 반면 85명의 표본이 할당된 50대에서는 127명, 101명을 확보해야 할 60대 이상에서 164명이나 과대표본을 표집한 것으로 나타났다. 이렇게 고연령층에 편중된 표본을 교정하기 위해 조사회사는 2030세대 표본의 경우, 한명의 응답에 두 배 이상의 가중치를 곱해 최종 결과를 산출해야 한다. 2030세대 응답자가 전체 2030세대 유권자 분포와 조금만 오차가 있어도 그 오차는 두 배 이상으로 증폭되는 셈이다. 위의 인용된 매일경제 보도처럼 리서치뷰 조사 결과에서 30대에서 정동영 후보 지지율이 0.9%으로 나타난 것은 30대 표본이 제대로 대표성 있게 표집되지 않은 상태에서 가중치로 증폭된 결과일 가능성이 크다. 표본 대표성을 맞추기 위해 부여되는 표본 가중치는 부여하지 않거나, 부여하더라도 그 증감의 폭이 적을수록 좋은 조사 데이터라 할 수 있다.

문제는 이런 세대별 표본 불균형 현상이 리서치뷰만의 문제는 아니었다는 점이다. 물론 심지어 리서치뷰 조사의 경우는 목표할당 자체도 다른 조사기관들과 큰 차이를 보여 여러 문제들이 복합적으로 나타났음을 알 수 있다. 그러나 [표1]에서 20대와 30대는 합해서 전체 표본의 42%의 비율(20대 21%, 30대 21%)을 채워야 하지만 브레이크뉴스-휴먼리서치 조사, CBS노컷뉴스-조원씨앤아이 조사, MBN-리얼미터 조사 공히 대부분 15~20% 수준에 그쳤다. 2030세대에서 2배 이상의 가중치를 주었음을 확인할 수 있다. 반대로 5060세대의 경우 전체응답자의 38%를 확보해야 하지만, 네 기관 모두 64~73%나 되어 고연령층이 과대 표집된 표본으로 조사했음을 알 수 있다. 충격적인 결과다. 할당을 채우지 못하거나 목표할당을 채워도 추가로 조사했다는 것은 목표 표본수를 설정한 것은 의미가 없이 편의상 조사를 진행한 것을 의미한다.

[표1] 관악을 재보궐선거의 각 조사별 세대별 목표표본과 조사표본의 차이(빈도 및 상대비율)

출처: 중앙선거여론조사공정심의위원회 홈페이지 (http://www.nesdc.go.kr/cop/opinionPoll/opinionPollPublicList.do)

성별 쿼터도 불균형, 일부 기관은 정치성향 가중치까지 부여

표본의 세대별 대표성 뿐 아니라 성별 대표성에도 심각한 문제가 발견되었다. 이번에는 여심위 홈페이지에 올라있는 광주서을 세 여론조사를 보자. 별도의 표로 제시하지 않았지만, 세 조사 공히 관악을 여론조사들과 마찬가지로 세대별 표본 대표성에 심각한 문제가 확인되었다. 2030세대는 목표할당을 절반도 채우지 못했고, 5060세대는 두 배 가량 과도하게 표집한 조사들이다.

여기에 성별 대표성을 살펴보면, ARS조사가 아닌 면접원에 의한 전화조사로 진행한 폴리뉴스-한길리서치 조사의 경우는 비교적 성별 목표표본에 근접하게 표본을 구성한 반면, CBS-조원리서치 조사나 MBN-리얼미터 조사의 경우 성별 목표표본도 제대로 맞추지 못하고 있다. 표본 중 남성구성이 48%, 여성비중이 52%정도 되어야 하지만 실제 조사에서는 남성이 65%내외, 여성이 35%내외 조사되어 남성이 과대표집된 데이터임을 알 수 있다. 세 조사 공희 세대별 구성 보정을 위해 가중치를 주고, 성별 구성비를 보정하기 위해서도 적지 않은 가중치를 부여해야 했다는 것을 의미한다. 특히 CBS-조원리서치 조사나 MBN-리얼미터 조사의 경우에는 성별 가중치 크기도 심각한 수준으로 볼 수 있다.

심지어 리서치뷰 조사와 MBN-리얼미터 조사의 경우 표본의 인구구성 뿐 아니라 대선득표율과 정치성향 관련 변수 가중치까지 부여했다고 밝히고 있다. 리서치뷰조사의 경우 18대 대선 지지율과 18대 총선 투표율 가중치를 반복비례 적용했다고 공개했고, MBN-리얼미터도 대선득표 가중치를 추가로 부여한 조사결과이다. 이 정도면 가중치가 보다 정교한 분포 추정을 위한 ‘보정’의 수준이 아니라 가중치를 통해 새로운 데이터를 ‘창조’했다고 해도 과언이 아닌 수준으로 보인다. 전면 성형으로 원래의 형체를 알아볼 수 없는 수준이 된 셈이다.

[표2] 광주서을 재보궐선거의 각 조사별 성별 목표표본과 조사표본의 차이(빈도 및 상대비율)

출처: 중앙선거여론조사공정심의위원회 홈페이지 (http://www.nesdc.go.kr/cop/opinionPoll/opinionPollPublicList.do)

낮은 응답율 문제도 심각

상황이 이렇다보니 낮은 응답율 문제 정도는 눈에 들어오지도 않는다. 그러나 낮은 응답율 문제도 심각하다. 전화면접조사방법으로 진행한 폴리뉴스-한길리서치 조사의 응답율이 16.5%로 두 자리수를 기록했을 뿐 나머지 ARS 조사들의 응답율은 2~4% 수준이다. ARS조사들 중에서는 관악을의 리서치뷰 조사 응답율이 6.0%로 개 중 나은 편이었다. 응답율은 통화 접촉 시 (1) 비적격번호(결본, 사업체, 팩스번호, 대상지역 아님, 할당 초과 등) (2) 연결실패 번호(통화 중, 부재 중, 안받음) (3) 연결 후 거절 및 중도이탈 번호 (4) 연결 후 응답완료 번호 4개 범주 중 (4)/{(3)+(4)} ×100(%)로 산출한다(법제처 <선거여론조사 기준> 제1장 2조 4항, 2014).

낮은 응답율이 문제가 되는 것은 표본추출의 전제가 되는 “무작위성(randomization)”의 원칙을 훼손하기 때문이다. 전체 모집단 중에서 몇 백명에서 몇 천명의 표본을 뽑아 전체 집단의 여론을 추정하기 위해서는 뽑힌 표본들이 전체 모집단의 분포를 고르게 대표해야 하며, 이렇게 고르게 대표하는 표본 추출을 위해서는‘무작위적으로’표본을 추출해야 한다. 모든 구성원들 중 조사 표본에 선정될 확률이 동일해야 무작위 표본추출이라 할 수 있따. 특정 성향의 사람이 체계적으로 표본에 뽑힐 확률이 다른 성향의 사람들보다 크다면 무작위 추출이 아니며, 해당 집단이 과대 대표됨으로써 전체 여론을 왜곡하게 된다(Singleton and Straits 1999; Erikson and Tedin 2005).

즉 응답율이 낮은 것은 최초 무작위로 추출한 대상이 조사를 거절하거나 중간에 중단할 경우 재접촉(call-back)하여 조사를 완료하지 않고 바로 이를 대체할 표본을 찾기 위해 다른 번호로 연결하기 때문이다. 정치적 무당파나 무관심 층의 경우 여론조사에 소극적이며, 반대로 적극적으로 여론조사에 응하는 사람들은 상대적으로 정치적 관심이 있고, 정치적 입장이 분명할 가능성이 크다. 애초 무작위로 추출한 조사 대상으로부터 조사를 진행하지 못하고 다른 표본으로 대상을 대체할 경우 정치적 관여도 높은 유권자들이 과대 대표된 조사표본이 될 가능성이 커지며, 전체 유권자 분포와는 오차를 확대하는 요인이 된다(정한울 2012).

관악을처럼 총 유권자 210,381명, 116,457세대로 구성된 큰 지역구조차 가구전화 조사를 진행할 경우 이처럼 응답율이 낮은 조건에서 목표할당을 넘어도 추가로 조사에 응할 수 있는 상황이라면, 해당 지역의 수십에서 수백명의 운동원들이 가구전화를 착신 전환하여 응답자 특성에 대한 거짓 응답을 할 경우 조사결과에 대한 인위적인 영향을 미치는 것이 가능해진다. 이미 여론조사가 아닌 조작이 가능한 수준이며, 실제 당내 경선과정에서 수백개의 가구전화 회선을 구매하고 운동원들의 착신전환 대기조를 꾸리는 것은 이제 공공연한 선거운동 전략 중의 하나로 자리 잡은 듯하다(국민일보 2014/04/15).

무엇을 할 것인가

사실 부실조사 문제는 어제 오늘의 일이 아니며, 이번에 문제가 된 기관만의 문제도 아니다. 그런데 왜 문제는 반복되고 증폭되고 있는가? 문제를 해결하기 위해서는 무엇을 해야 하는가?

대표성과 응답율 제고 방안 : ARS 조사의 지양

이번 여론조사들처럼 과도한 가중치를 줘야 할 정도로 지역, 성, 연령을 제대로 대표하지 못하는 표본구성의 문제를 해결하기 위해서는 우선 자동응답조사(ARS조사) 방법을 지양하고, CATI (Computer-Aided Telephone Interview) 시스템 등의 기술적 보완장치의 구축이 필요하다. 사실 이번에 문제가 된 조사들의 경우 대부분 ARS 조사를 통해 이루어진 조사들이다. ARS조사의 경우 실제 조사원의 조사과정을 음성녹음으로 대체하여 조사를 진행하는 방식으로서 인건비가 들지 않아 저렴하고 정교하고 체계적인 조사관리 시스템을 갖추지 못한 영세한 조사기관에서 주로 채택하는 방식이다.

ARS조사라도 CATI 시스템을 갖춰 지역, 성, 연령별로 목표할당의 충족 여부를 실시간으로 체크하며, 부족한 표본을 채울 때까지 조사를 진행할 수 있도록 프로그래밍하여 조사를 진행한다면 원칙적으로 지역, 성, 연령별 쿼터를 못 채울 이유는 없다. 그러나 일상 생활의 여유가 없고, 전화 사기 등의 급증으로 전화 여론조사에 대한 거부감이 증가하고 있는 가운데 실제 사람도 아닌 녹음된 음성에 성실하게 답해줄 사람을 찾는 것은 더더욱 어렵다. 따라서 ARS조사의 경우 면접원에 의해 진행된 조사에 비해 응답율이 크게 못 미치게 된다. 특히 특정 세대, 특정 성의 응답율이 크게 떨어져 결국 표본의 지역, 성, 연령별 구성을 제대로 채우지 못하고 있다.

ARS조사의 보다 근본적인 문제는 면접원과 응답자간의 쌍방향 커뮤니케이션 속에서 조사를 진행하지 못하다보니 응답자의 거짓응답, 장난응답이나 불성실 응답에 취약하다는 점이다. 즉 응답의 신뢰성에 근본적인 한계가 있는 조사방법이다. 2012년 총선과정과 2014년 지방선거에서 드러난 것처럼 특정 후보 선거운동원들이 가구전화를 착신으로 돌리고, 자신의 성, 연령을 속여 조사에 참여하는 사례가 늘고 있다. 그래서 학계에서 가르치는 조사방법론에서 ARS조사의 경우 과학적 여론조사방법으로 인정하고 있지 않으며, 미국 갤럽 등 해외 전문여론조사 기관에서 ARS조사를 대통령 지지율이나 선거여론조사 등의 방법론으로 채택하지 않는다. 물론 ARS조사가 아니라고 해서 과학적 방법으로 단정지을 근거는 없다. 이 역시 엄격한 모니터링과 비판이 필요하다. 그러나 기본적인 표본대표성 구성조차 맞추지 못하는 조사방법부터 지양해나가는 것이 순서다.

선관위 선거관리 개선 : 검증기준의 마련·일관된 잣대 적용·이해상충 방지

또한 선거여론조사 및 보도를 개선하기 위해서는 선거여론조사 관리에서 선관위의 일관된 잣대 적용과 규제방식의 혁신이 필수적이다. 리서치뷰 조사결과에 대해 선관위가 선거법 위반 혐의를 인정한 것은 정작 세대표본의 대표성 문제가 아니었다. 가중치 보정 후 18대 대선과 18대 총선 지지율로 반복가중치를 부여한 대목이다. 이 판단 자체는 타당해 보인다. 그러나 이 역시 리서치뷰만의 문제는 아니었다는 점이다. 이전 선거에서 선관위는 리서치뷰와 유사하게 성향가중치 부여 방식을 채택했던 다른 기관들에 대해 별다른 조치를 하지 않았고, 이번 선거에서 마찬가지로 대선지지 가중치를 추가로 부여한 MBN-리얼미터 조사에 대해서는 특별한 조치를 내리지 않아 불공정 시비는 자초한 측면이 크다.

선거여론조사 공정성을 심의하는 중앙심의위원회 심의위원으로 이해당사자라할 수 있는 조사회사 대표들을 포함한 것도 납득하기 힘든 대목이다. 심의를 받아야 할 대상이 심의를 하는 상황이다. [표3]의 중앙 및 시도선거여론조사공정심의위원회 위원 구성 현황을 보면 심의를 받아야 할 여론조사 기관 및 단체구성원이 심의위원에 포함되어 있으며, 특히 9명의 중앙심위원 중 학계 2명, 정당추천 2명과 동일하게 2명이나 포함되어 있다. 법조계나 시민단체 출신보다도 많이 포함되어 있다. 이러니 여심위와 선관위 결정에 힘이 실릴 리 없다.

[표3] 중앙 및 시도 선거여론조사공정심의위원회 위원 구성 현황

출처: 중앙선거여론조사공정심의원회 <2014. 6. 4. 제6회 전국동시지방선거 선거여론조사 심의백서> p.10

한편, 선관위는 정작 논란이 크게 된 세대별 표본 대표성의 문제에 대해서는 기각 결정을 내렸다. 물론 과학적 조사방법과 불량 조사를 판별하는 객관적인 규제기준을 마련하는 것은 만만치 않은 일이다. 그러나 이번 논란에서 드러난 것처럼 심각하게 편중된 표본을 가지고 조사한 결과를 방치한다면 공심위가 부실조사에 면죄부를 주는 효과를 낳는다는 점도 간과해서는 안 된다.

현 상황에서 문제를 해결하는 가장 효과적인 방법은 유권자들이 손쉽게 문제를 체감하도록 하는 것이다. 고연령층 표본편중 문제나 과도한 가중치의 폐해를 드러내려면 어려운 샘플링 이론을 설명하는 것보다 가중치를 주기 전 후보 지지율과 가중치를 준 후 지지율을 공개하는 방안을 고려할 필요가 있다. 이번 조사들처럼 과도한 가중치가 부여된 경우 가중치 여부에 따라 조사결과가 근본적으로 뒤바뀔 수준이다. 이를 보고도 쉽게 조사결과를 인용할 후보나 언론은 많지 않았을 것이다. 성형전후의 인위적인 변화를 보여주고 유권자들이 신뢰성을 판단하게 하자는 취지다.

외주 정치의 극복

조사나 보도에 대한 관리 못지 않게 근원적인 대책을 강구하는 것도 중요하다. 우선, 여론조사에 대한 이중적 태도를 극복해야 한다. 4.29 재보궐 선거를 앞두고 벌어진 논란 역시 여론을 통한 민의 수렴 자체보다 선거에 유리하게 활용하고자 하는 후보 진영과 조사윤리와 책임보다 비용절감을 우선한 업계의 이해관계가 맞았기에 가능했다. 언론 역시 논란과정에서 조사의 신뢰성 문제에 비판의 날을 세우지만, 이들 조사의 발주기관 자체가 언론이라는 점도 지나쳐서는 안 된다.

그러나 무엇보다 의사결정을 여론조사에 맡기는 외주 민주주의에서 탈피하기 위해서는 정치의 복원이 시급하다. 여론조사에 대한 과도한 기대와 맹목적인 불신이 공존하는 것은 무엇보다 정치주체가 부실해진 결과이다. 직접 민의가 움직이는 현장에서 국민들의 고충을 듣고 다양한 갈등을 조정하고 수렴하는 것이 민주정치의 기본인데, 정치 스스로 해결하지 못하다보니 여론조사라는 외적인 수단에 울고 웃는다. 아무리 좋은 여론조사도 민의를 읽는 수단이지 결코 주체가 될 수 없다. 리더십의 역할, 민주적 의사결정 과정, 주권자로의 권리와 책임까지 조사회사에 맡길 수는 없는 노릇이다(끝).