외주민주주의 시대의 데이터 저널리즘

 

급증하는 데이터 분석 보도, 콘텐츠는 조사기관·전문가 분석에 의존

졸속 분석·아전인수식 해석 여과 없이 보도...여과 프로세스 및 공론장 활성화

 

 

본 보고서는 <미디어오늘>에 기고한 “[바심마당] 박근혜 지지율 상승은 반대층 지지효과… 논리적 일관성 상실, 민의 왜곡 우려”의 원문이다(2015년 8월 2일 발표). 미디어오늘의 양해 하에 본 보고서를 발간한다.

 

 

 

데이터기반 의사결정 시대의 도래, 외주 콘텐츠 증가

 

객관성·과학성 보장하는 데이터 기반 의사결정 각광

언론의 데이터 관련보도 급증, 콘텐츠의 외부 의존 심각

 

필자는 본지 5월 26일자로 보고서와 칼럼을 통해 “정치적 조정과 제도적 절차를 통해 풀어야 할 의사결정이 민의를 수렴하기 위한 하나의 수단에 불과한 여론조사 등 조사방법에 대체되는 상황”을 “외주민주주의”로 정의한 바 있다(EAI 오피니언리뷰 2015-05호 “외주민주주의 시대의 선거여론조사”). 이 글에서는 선거 과정과 정치적 의사결정을 여론조사에 과도하게 의존하는 현상을 비판했지만, 사실 의사결정 및 정책결정 과정에서 전통적인 여론조사는 물론 최근 각광받고 있는 빅데이터 분석 등 첨단 데이터 분석결과를 활용하는 것은 시대적 추세가 되고 있다.

 

정치 고유의 의사 결정과 조정 기능을 조사나 데이터 분석과정으로 대체하는 “의사결정의 외주화”는 문제지만, 여론조사나 방법은 물론 최근 주목받고 있는 다양한 데이터 분석 기법을 활용하여 과학적 의사결정의 확대는 불가피할 전망이다. 이렇게 조사데이터의 중요성이 커지면서 몇 년 전만 해도 언론사나 정부, 정당의 발주에 의해 실시되던 여론조사를 이제는 자체 비용을 들여 조사결과를 발표하는 기관들도 생겼다. 선거나 특별한 이벤트가 있을 때나 언론의 특집기획으로 보도되곤 했는데 이제는 조사주기도 짧아져 거의 매주 여론조사 보도가 쏟아지고 있다. 또한 최근 트위터, 블로그 등 SNS 키워드 분석 등새로운 분석기법 등을 활용한 빅데이터 기획보도를 찾아보는 것도 이젠 낯설지 않은 장면이다.

 

과학적·객관적 의사결정을 위한 데이터 분석 및 데이터기반 언론보도가 활성화될수록 전문성을 갖춘 외부 기관에 의존하는 “외주”프로세스의 역할도 커질 수밖에 없으며 이에 대한 제대로 관리, 감독의 중요성도 커진다. 의사결정을 하는 정부나 정당, 보도 주체인 미디어가 데이터의 수집과 처리, 분석 과정에 사용되는 데이터의 질에 대한 검증 및 분석의 엄밀성과 타당성을 제대로 판별하는 능력이 중요해진다. 즉 “신호와 소음”의 구분하는 역량과 장치가 필요하다(네이트 실버 2012; 고한석 2013).

 

앞서 인용한 보고서가 데이터 자체의 질을 좌우하는 조사방법 차원에서 외주민주주의의 문제점을 다루었다. 즉 지난 보고서에서 4.27 재보궐 선거에서 ARS조사 등 값싼 조사와 표본대표성에 근본적 결함이 있는 조사들이 범람하면서 오히려 잘못된 의사결정을 유발할 수 있다는 점을 강조하고자 했다. 반면 이번 보고서는 “조사방법” 못지 않게 데이터 분석 결과의 보도 혹은 활용과정에서 발생하는 “콘텐츠”의 문제점에 대한 여론 환기를 목적으로 한다. 최근에는 여론조사는 물론 빅데이터 분석 분야가 각광을 받으면서 각종 빅데이터 분석을 표방한 각종 기획들이 화려한 인포그래픽과 함께 언론을 통해 쏟아지고 있지만, 얼마나 정확한 정보와 통찰을 제공하고 있는 지 의문이다. 심지어 의도했건, 의도하지 않았건 실제 데이터가 주는 함의를 왜곡함으로써 의사결정 상의 혼란을 유발하거나 불신을 자초하는 경우도 적지 않고 결과적으로 데이터 분석기반 의사결정과 보도의 정당성마저 훼손하는 경우들이 적지 않다는 것이 필자의 판단이다.

 

 

데이터 콘텐츠 보도의 나쁜 사례 : 졸속 보도, 아전인수식 해석

 

조사 및 데이터 분석결과를 조사기관이나 외부 전문가에 의존하는 외주민주주의 경향이 강해질수록 민의와 정책 추진 과정을 심각하게 왜곡할 수 있다. 최근 데이터를 활용한 언론보도에서 자주 발견되는 문제점을 한마디로 요약하자면, 데이터에 대한 충분한 분석 없이 데이터의 함의를 충분히 이끌어내지 못하는 졸속 분석과 데이터 결과를 로부터 도출할 수 있는 함의를 충분히 끌어내지 못하거나 심지어 왜곡함으로써 잘못된 인식과 판단을 유포한다는 점이다. 데이터분석에 대한 관심과 영향력이 커진 만큼 조사 분석 및 보도의 책임도 커지지만 현재 언론보도 양태를 보면 한국의 대다수 미디어들이 조사기관의 보도 자료를 여과 없이 받아쓰는 상황이다.

 

사례1 : 거부권 행사 전후 박대통령 지지율 상승, 지지층 결집 효과?

 

<리얼미터 조사> 새누리당 지지층, TK, 50대 지지층에서 박 지지율 상승

 

먼저 얼마 전 정국에 큰 파장을 일으킨 소위 6월 25일 “박대통령의 국회법 개정안 거부권행사” 사례를 살펴보자. 6월 29일 대부분의 언론은 여론조사 기관 리얼미터의 보도자료를 인용해 메르스 정국 하에 박근혜 대통령의 급락하던 지지율이 25일 대통령 거부권 행사를 전후로 결집해 V자로 급반등했다는 소식을 집중적으로 전했다(그림1). 지지율 상승요인으로 거부권 행사에 대한 “박근혜 대통령 지지층이 결집했다는 점(지지층 결집효과)”을 그 동안 지지율을 잠식하던 메르스의 여파와 대통령의 거부권 행사에도 불구하고 지지율 반등을 가져왔다는 해석이 언론을 통해 대대적으로 확산되었다(YTN 2015/06/29; TV조선 2015/06/30).

 

[그림1] 언론에 집중 보도된 거부권 행사 전후 박 대통령 지지율 변화(%)

 

 

출처: 리얼미터 <보도자료> (2015.6.29)

 

리얼미터의 자료에 따를 경우, 박근혜 대통령 지지층인 새누리당 지지층, TK, 50대에서 지지율이 상승했다. 새누리당 지지층에서 24일 조사는 67.2%였지만 26일 조사에서는 무려 80.4%에 달했다. 보수층에서도 지지율이 상승했다. 그러나 이를 두고 25~26일의 박근혜 대통령 지지율의 상승을 지지층 결집효과만으로 해석하는 것은 왜곡에 가깝다. 특히 TK지역은 19일부터 24일까지는 큰 폭으로 하락하다 26일에 57.5%까지 상승했다. 이 결과들만 지지층 결집효과라 부를 만 하다. 박근혜 대통령의 승부수가 먹혔다느니 콘크리트 지지층의 위력을 과시했다는 점에서 거부권 행사 및 유승민 대표에 대한 압박이 대통령 지지율 상승에 기여했다는 분석이 각종 정치평론 프로그램을 통해 제기되기도 했다.

 

실제로는 전 계층에서 지지율 상승 : 포지션 이슈 아닌 합의 이슈 영향인 듯 

특히 호남, 2040세대 등 야당 지지층 지지율 상승폭 > TK, 5060세대 지지율 상승보다 커

 

그러나 보도자료에 함께 제시되어 있는 다른 계층집단에 분석결과를 보면 이는 오진일 가능성을 뚜렷하게 보여준다. [그림1]에서 대통령 지지가 여전한 지지기반을 연령, 지역별 분석을 해보면 당장 지지층 결집 효과라는 진단과 뚜렷하게 상충하는 결과를 볼 수 있다. 심지어 대통령의 핵심 지지층 중에 하나인 PK에서는 거부권 행사 이후에도 오히려 39.2%까지 하락했다. 60대에서는 지지율이 정체되었다. 특히 박근혜 정서가 가장 강한 호남에서도 무려 14.1%p나 올라 TK에서의 지지율 상승폭보다도 더 높다. 뿐만 아니라 충청, 수도권 모두 지지율이 상승했다. 세대로 보면 반박근혜 성향이 강한 40대 지지율 상승폭(12.6%p↑)과 20대 지지율 상승폭(7.3%p)이 50대의 지지율 상승폭(6.7%↑)을 상회한다.

 

<갤럽조사> 거부권 행사 : 지지층 균열 효과, 거부권 행사 찬성 TK 42%, PK 39% 그쳐

유승민 사퇴 : 새누리당 지지층 45%만 찬성

 

결국 같은 박 대통령 지지층 내(TK vs. PK, 50대 vs. 60대)에서도 이 시기 지지율 변화의 방향은 서로 엇갈리고 있으며, 지지층 외에 반박근혜 성향이 강한 반대층에서도 지지율이 상승 폭이 컸다. 이러한 결과를 두고 박대통령의 지지층 결집으로 지지율 상승이 있었다는 해석이 가능할지 의문이다. 한국갤럽의 7월 1째주 조사(6월 30-7월 2일)에서 박 대통령의 거부권 행사에 대한 조사결과를 보자. [그림2]에서 반박근혜 성향이 강한 새정치연합 지지층에서 압도적으로 반대가 많았을 뿐 아니라, 새누리당 지지층에서조차 열 명 중에서도 잘했다는 여론은 네 명은 반대하거나 입장을 유보한 사안이다. 박대통령에 맞선 유승민 대표사퇴에 대해 PK에서는 사퇴 반대가 많았고, TK에서조차 대표사퇴에 찬반이 엇갈렸다. 마찬가지로 새누리당 지지층에서조차 유승민 대표의 사퇴에 찬성한다는 여론은 과반에 못 미치는 45% 수준이었다.

 

이러한 조사결과들을 종합해보면 만약 25일 거부권행사 전후 대통령 지지율이 상승한 것이 사실이라고 할지라도 이를 대통령 지지층의 결집효과로만 보기는 무리다. 리얼미터의 발표대로 25일 이후 지지율 상승이 있었다면 “거부권 행사”와 같은 정치적 성향에 따라 입장이 갈리는 “이념적 이슈(ideological issue)” 가 아닌 성향과 관련 없이 같은 방향으로 반응하는 “합의가능 이슈(valence issue)”의 영향으로 보는 것이 타당할 것이다. 이렇게 보면 메르스 효과를 주효과로 보는 것 보다 설득력 있다. 실제로 한국갤럽의 6월 넷째 주 조사에서 이미 대통령 지지율 부정평가 이유를 보면 “메르스 대처를 못해서”를 꼽은 응답이 눈에 띄게 감소하는 경향을 보여주고 있었다(한국갤럽 정기조사 6월 넷째주 6%p 감소, 7월 첫째주 11%p감소).

 

[그림2] 거부권 행사 및 유승민 대표 사퇴여부에 대한 여론(%)

 

 

출처: 한국갤럽 7월 1주 조사(6월 30일~7월 2일) <보도자료> (2015.7.3.)

 

실제 지지율 상승 아닌 단순 표본 오차일 가능성도

 

한 가지 간과하지 말아야 할 것은 위에서 언급한 집단별(지지층, 지역, 연령별 등) 박대통령 지지율 변화 분석에서 오차범위를 고려하면 24~26일 사이의 전체 지지율 변화는 물론 새누리당 지지층, 지역, 세대별 지지율 변화는 통계적으로 유의한 차이가 아니다. 리얼미터의 보도자료 내용대로 그 주 전체 주간 조사결과로 보면 전주와 큰 차이가 없었다. 그 다음 주 주간 대통령 지지율 이 모두 오차범위 내의 차이로 사실상 유의미한 변화가 있었다고 해석할 수 없다. 즉 새누리당 지지층이나 보수층에서 보여준 급격한 지지율 상승은 실제 지지층 결집이라기 보다는 단순한 샘플 오차였을 가능성을 배제하기 힘들다. 그럼에도 보도자료는 물론 보도자료를 발표한 어떤 자료에서도 오차범위의 가능성에 대한 지적은 찾기 어렵고, 지지층 이외의 지지율 상승 현상은 배제하고 지지층 결집으로 대통령 지지율이 상승했다는 주장이 여과 없이 확산된 것이다.

 

사례2 : SNS분석 보도, 조현아 ‘땅콩 회항’사건으로 정윤회 사건 언급량은 줄었나?

 

빅데이터 열풍으로 빅데이터 분석기법을 활용한 언론을 통해 경쟁적으로 보도되고 있다. 방대한 데이터양과 고도의 분석기법이 활용됨에 따라 일반국민은 물론 정부 및 정치권 정책결정자들도 무비판적으로 받아들이기 쉽다. 지난 연말 정국을 달구었던 소위 조현아 땅콩회항 사건에 대한 SNS 빅데이터 분석보도 사례를 보자. 당시 정윤회 사건(11월 24일), 조현아 땅콩회항 사건(12월 8일), 12월 19일 통합진보당 해산결정(12월 29일)까지 트위터와 블러그 등 SNS에서의 언급량 보도분석결과를 소개한 그래프가 [그림3]이다.

 

이 그래프에 대한 분석결과는“조현아 ‘땅콩 회항’ 터진 후 정윤회 사건은 언급량 줄어”라는 제목의 기사를 통해 발표되었다. 본 기사에서 정윤회 사건에 대한 SNS에서의 언급량 분석 결과 정윤회 문건 유출 사건이 촉발된 “11월 28일 1만5055건을 기록하고”,“조응천 전 청와대 공직기강비서관과의 공방이 이어진 12월 2일 2만6857건으로 정점을 찍었다”고 보도했다. 그러나 12월 9일 이후 ‘정윤회-조현아’ 키워드 비교탐색 결과를 제시하며, 조현아 ‘땅콩회항’사건 이후 정윤회 사건 언급량‘이 줄었다고 분석했다. 이러한 결과가 본문에서는 조현아 땅콩 회항 사건을 덮기 위한 음모론을 뒷받침하는 것이라고 분석하면서도 기사의 제목은 조현아 땅콩 사건과 정윤회 사건 언급량 사이에 상관관계를 암시함으로써 음모론이나 의혹 제기의 여지를 남겼다.

 

그러나 조현아 땅콩 사건과 정윤회 사건 언급량 변화 사이의 관계를 그래프를 통해 확인해보면 기사의 제목과 본문 사이에 음모론에 대한 이해에 미묘한 차이를 보여줄 뿐 아니라 기사와 본문 모두 사실관계에 대한 혼선을 불러일으킬 가능성이 크다. 조현아 땅콩 사건에 대한 보도는 12월 8일로 그 이후로 보면 땅콩 회항사건에 대한 언급이 정윤회 사건 언급을 넘어선 것은 사실이다. 그러나 정윤회 사건에 대한 언급량이 줄기 시작한 시점은 땅콩 회항 사건 일주일 전인 12월 2일 정점을 찍었다. 즉 12월 2일 이후 땅콩 회항 사건이 일어나기 ‘이후’ 가 아닌 ‘이전’에 이미 정윤회 사건 언급량은 급감하는 양상으로 볼 수 있다. 땅콩회항 사건 하루 전 정윤회 사건에 대한 언급량이 다소 증가하는 양상을 보이고는 있으나 그 폭이 사건 초기의 증가 속도와는 차이가 있으며, 장기적으로는 하락 추세에 들어섰다는 해석도 가능한 자료이다. 즉 제시한 데이터를 보면 땅콩 회항 사건과 정윤회 사건에 대한 SNS 상의 언급량 사이의 인과관계는 커녕 상관관계 자체도 모호하다.

 

그래프를 보면 최대 관심사는 조현아 사건 이후 정윤회 사건 언급이 감소한다는 12월 8일 이후 시점보다는 11월 말부터 12월 초까지 정국을 뒤흔들던 정윤회 사건이 감소한 시점이다. 즉 12월 2일을 정점으로 이미 정윤회 사건에 대한 SNS에서 언급량은 급격하게 감소하는 추세를 보여주고 있다. 오히려 이 시기에 정윤회 사건에 대한 SNS 상의 논의가 감소한 이유가 무엇인지 규명하는 것이 현상을 정확히 이해하는 데 중요한 단서를 제공할 것으로 보인다. 이상의 내용을 보면 빅데이터 분석이라는 거창한 제목에 비해 분석결과에 대한 해석은 치밀하지 못하고 오히려 인식의 혼선과 의혹을 유발하는 측면이 크다.

 

[그림3] 정윤회·조현아 사건 시기 SNS 언급량 비교 (11월 24일-12월 20일)

출처: 경향신문 “조현아 땅콩 회항 터진 후 전윤회 사건은 언급량 줄어” (2014.12.22.)

 

 

데이터 콘텐츠의 외주화 : 콘텐츠의 부실화, 오판 가능성 높여

 

화려한 기법, 데이터 분석량의 크기 만큼 빅 임플리케이션 주는지 의문

 

여론조사든, 빅데이터 분석이든 객관적인 조사 데이터 및 과학적인 분석기법을 활용하여 도출한 컨텐츠로 인식된다는 점에서 다른 어떤 언론보도 보다도 많은 관심을 끌게 된다. 이에 따라 주요 선거가 끝나면 조사방법 및 데이터의 신뢰성에 대한 논란이 발생한다. 그러나 최근 정국의 핵심 이슈였던 두 사례를 살펴보면 조상방법 못지 않게 정책결정자나 유권자들에게 전달되는 컨텐츠에서의 부실과 왜곡 가능성이 크다는 것을 보여준다.

 

잘못된 데이터 해석은 대통령과 정치권에 국정 및 정치상황에 대한 오판을 낳는다. 거부권 행사 조사보도만 보더라도 거부권행사로 대통령의 지지가 상승할 수 있다는 해석은 콘크리트 지지층에 대한 과대평가를 낳을 수 있다. 대통령과 친박강경파 의원들로 하여금 유승민 전 대표에 대한 강한 압박을 밀어붙이는 근거가 되었을 수도 있다. 실제로 의도와 무관하게 현 정부의 성공여부에 대한 관심을 차기대선경쟁으로 돌려 놓았고, 힘으로 제압하려고 했던 유승민 전 대표를 일약 여권의 잠룡으로 만드는 데 일조했다. 땅콩회항 사건 SNS분석은 사건 이전에 정윤회 사건에 대한 언급량이 정점을 찍은 이유에 대한 분석은 도외시함으로써 음모론에 무게를 실을 수 있는 여지를 남겼다. 데이터 분석관련 언론보도에서 손쉽게 찾아볼 수 있는 사례들이다.

 

의사결정과 정책수립 과정에서 데이터 분석의 중요성이 커지고 있다. 언론을 통해 다양한 데이터 분석기법이 화려한 인포그래픽을 통해 소개되고 있다. 그러나 데이터기반 의사결정과 다양한 데이터분석 콘텐츠들에 대한 커지는 관심만큼 큰 정책적 함의를 제공하고 있는지는 의문이다. 데이터 기반 의사결정이 강화되면서 나타나는 “외주화 현상”에 대한 적절한 모니터링과 여과 작업이 누락될 경우 부실분석과 민의를 왜곡하는 의도하지 않은 결과를 초래할 수 있다.

 

이 글에서 살펴본 몇 가지 사례를 통해 데이터 기반 콘텐츠의 외주화에 따른 부작용을 완화하기 위한 노력이 필요하다는 점을 확인할 수 있었다. 무엇보다 언론의 입맛에 맞게 보도 자료를 생산하는 조사기관 및 이를 무비판적으로 받아 적는 언론의 자성과 인식전환이 시급하다. 전문기관의 발표라고 쉽게 맹신할 경우 엉뚱한 의사결정으로 심각한 피해를 초래할 수도 있을 것이다. 단기적으로는 클릭수는 높일 수 있지만, 장기적으로 신뢰를 잃는다. 특히 각 언론 미디어 차원에서 커지는 데이터 기반 의사결정 및 분석에 대한 모니터링과 검증할 수 있는 역량과 프로세스를 갖춰나갈 필요가 있다. 정책결정자 및 정치권 역시 언론의 조사데이터 보도를 비판적으로 평가하여 활용할 수 있는 전문적 역량과 안목을 키우는 것이 필요하다. 마지막으로 한국사회의 최종 주권자인 국민 스스로 데이터 기반 분석과 보도 콘텐츠들에 대해 경계등을 키고 비판적 시각에서 콘텐츠를 취사선택하는 자세를 견지해야 할 것으로 보인다. 잘못된 데이터분석 기반 정책결정의 최대 피해자는 유권자 자신이기 때문이다(끝).