2017년 5월호

화제

구글에선 안철수가 문재인 근소하게 추월

빅데이터로 예측한 대선

  • 김한용|신동아 객원기자 estel1227@naver.com

    입력2017-04-21 14:40:51

  • 글자크기 설정 닫기
    • 호남 경선 직후부터 안철수 급등세, 이후 소강 상태로
    • 구글 트렌드, 브렉시트·트럼프 당선 정확히 예측
    ‘빅데이터는 21세기의 원유.’

    미국 가트너그룹의 분석가인 피터 손더가드의 말이다. 주류 언론의 여론조사는 영국이 유럽연합에 잔류하고 미국 대선에서 힐러리 클린턴이 승리할 것으로 예상했지만 결과는 빗나갔다. 반면 빅데이터 분석은 영국의 유럽연합 탈퇴(브렉시트) 국민투표 결과와 2016년 미국 대선 결과를 정확히 예측했다.

    빅데이터는 4차 산업혁명의 동력으로도 알려져 있지만 아직 일반인에겐 생소하다. 디지털 환경에서 생성되는 다량의 데이터를 통칭하는 빅데이터는 방대한 규모, 짧은 생성 주기, 문자와 영상을 포함하는 다양한 형태를 갖는다. 가트너그룹은 이러한 특징을 5V(Volume 방대한 규모, Variety 다양성, Velocity 짧은 생성 주기, Veracity 정확성, Value 가치창출)로 정의한다.

    기존의 데이터는 정형화된 데이터를 말하며 인구통계, 실험 결과, 여론조사 등이 포함된다. 이러한 데이터는 규모가 한정적이고 지엽적이며 생성되기까지 오래 걸린다. 비정형 데이터는 인터넷상의 사진, 동영상, SNS에 적힌 텍스트 같은 고정된 형태가 없는 자료를 뜻한다. 빅데이터는 정형 데이터, 비정형 데이터, 둘의 중간쯤인 반정형 데이터를 모두 포함한다.


    구글 트렌드 직접 돌려보니

    빅데이터 분석은 정형 데이터 분석으로 생기는 오류를 비정형 데이터와 반정형 데이터를 포함함으로써 바로잡는 개념이다. 빅데이터는 이러한 데이터를 축적하면서 사회 구성원의 의견을 분석하고 예측할 수 있다고 한다. 빅데이터 분석이 브렉시트 국민투표와 2016년 미국 대선 결과를 정확히 예측한 것에 대해 많은 사람은 이변이라고 했다. 그러나 빅데이터 분석에 참여하는 사람들은 예정된 결과였다고 말한다.



    빅데이터 분석은 정보를 도표화해 제공하는 서비스를 통해 실시된다. 구글 트렌드는 전 세계적으로 고른 사용량을 보이며 연구자들의 주된 지표로 사용된다. 예를 들어, 어떤 선택적 이슈가 있을 때 검색량이 많은 선택지가 적은 선택지보다 지지를 더 많이 받는 것으로 해석되고 있다. 필자는 19대 대선 유력 후보들에 대한 구글 트렌드 추이를 통해 여론 흐름을 알아보기로 했다. 

    우선, 필자는 구글 트렌드로 브렉시트 국민투표를 분석했다. 검색어에 ‘leave EU(EU 떠나다)’와 ‘remain EU(EU 남다)’를 사용했고, 검색 대상 국가는 영국으로 한정했다. 도표를 보면 투표일인 2016년 6월 23일까지 검색량에서 지속적으로 ‘leave EU’가 ‘remain EU’를 앞섰다. 이어 구글 트렌드로 2016년 미국 대선을 분석했다.

    검색어는 ‘Donald Trump(도널드 트럼프)’와 ‘Hillary Clinton(힐러리 클린턴)’을 사용했다. 대상 국가는 미국으로 한정했다. LA타임스를 제외한 거의 모든 언론은 선거기간 내내 힐러리의 우세를 점쳤지만 지난 12개월의 구글 검색량은 트럼프의 승리를 보여준다.

    그렇다면 구글 트렌드는 우리나라 19대 대선을 어떻게 전망할까. 빅데이터를 활용한 민심의 향방은 더불어민주당 경선을 거치면서 좀 더 분명해졌다. 경선 과정에서 수많은 여론조사가 진행됐고 그중에는 안희정 후보가 문재인 후보를 꺾을 수 있으리란 분석도 있었다. 2016년 말엔 지지율이 미미했던 안 후보는 구심점을 잃은 보수층에서 ‘대연정’과 ‘선의’ 발언으로 지지를 얻었다. 3월까지 안 후보의 행보는 영국의 토니 블레어를 연상케 했다. 하지만 구글 트렌드는 이변이 없으리란 것을 보여주고 있었다.  
     


    ‘안희정 패배’ 예견

    문재인, 안희정, 이재명 후보의 구글 검색량을 비교했다. 검색 국가는 대한민국으로 설정했으며, 검색 기간은 더불어민주당 경선 기간의 검색량 추이를 살피기 위해 지난 90일로 설정했다. 안 후보는 1월 22일, 2월 2일, 2월 13일, 2월 17일, 2월 20일 검색량에서 문 후보를 앞질렀다. 2월 2일은 안 후보가 ‘대연정’을 처음으로 언급한 날이다. 그러나 2월 20일을 기점으로 안희정의 검색량은 급감해 이후 문재인의 검색량을 한 번도 앞서지 못했다. 경선 기간이 3월 22일에서 4월 3일까지인 점을 감안하면 안희정의 패배는 예견된 것이다.

    ‘노풍’과 같은 이변을 꿈꾼 3위 이재명 후보의 검색량 역시 그가 3위로 경선을 마칠 것이라는 점을 이미 보여줬다. 이 시장은 1월 20일과 1월 28일에 문 후보와 안 후보를 앞선 것 외에는 검색량에서 고전을 면치 못했다. 구글 빅데이터는 더불어민주당 경선 결과를 정확히 예측한 셈이다.

    5월 9일 대선이 실시되는 가운데, 후보 단일화가 전격적으로 이뤄지지 않는다면 대선은 문재인 후보, 안철수 국민의당 후보, 홍준표 자유한국당 후보, 유승민 바른정당 후보, 심상정 정의당 후보의 5자 대결이 유력하다. 이 다섯 후보의 검색량을 그림으로 환산해 비교해 보았다. 검색 국가는 대한민국이고 검색 기간은 지난 90일로 설정했다. 검색 결과 2017년 4월 11일 구글 트렌드 검색량 1위는 안철수 후보였다. 안 후보의 검색량은 1~2월 동안 유승민 후보에도 미치지 못했으나 3월 25일을 기점으로 상승세를 보인다. 이는 국민의당의 호남 경선 시점과 일치한다. 안 후보는 이날 압도적 승리를 거뒀다. 4월 2일 안 후보의 검색량은 문재인 후보의 검색량을 처음으로 앞질렀다. 이날은 국민의당 수도권 경선일이었다.

    4월 3일 한차례 추격을 받은 이후로는 4월 11일까지 안 후보의 검색량이 문 후보를 꽤 큰 차로 따돌리고 있었다. 4월 3일은 더불어민주당 경선에서 문재인 후보가 최종 대선후보로 확정된 날이다. 그러나 4월 4일부터 안철수 후보는 줄곧 검색량 1위를 고수했다. 이는 안철수 후보가 더불어민주당 경선 종료와 함께 안희정 후보의 지지층을 흡수한 점을 반영한다. 3월 전까지는 매우 미미했던 안 후보의 지지율 상승 요인들이 구글 트렌드상 검색량 추이와도 상당한 상관관계를 보인 것이다.



    “여론조사보다 예측력 좋을 수도”

    그러나 4월 11일 현재 안철수 검색량이 문재인을 앞섰지만 그 폭이 줄어든 것을 확인할 수 있다. 5월 9일 대선까지는 아직 많은 날이 남았다. 그사이 구글 트렌드 검색량에서 문재인이 다시 안철수를 역전할 가능성은 남아 있다. 5월 9일까지 구글 트렌드 검색량이 과연 당선자를 정확히 예측할 수 있을지도 대선 관전 포인트가 될 것이다.

    빅데이터 전문가인 진서훈 고려대 공공정책대학 교수는 “구글 트렌드의 대선후보 간 검색량 비교는 여론조사 결과보다 예측력이 좋을 수도 있다”고 말했다. 진 교수와의 대화 내용이다.

    -여론조사와 빅데이터 분석 결과는 왜 다르게 나타나나.
    “여론조사는 사전설계에 의해 모집단의 특성을 대표하는 것으로 보는 표본을 정하고 이 표본을 대상으로 설계된 질문에 답하게 하는 방식이다. 이에 비해 빅데이터 체계는 모집단과 표본이 존재하지 않기에 계획적이지 않다.

    불특정 다수 전원의 의견을 솔직하게 드러내는 구조다. 빅데이터의 경우 연령, 성별, 지역에 넓은 범위를 가지고 있기에 표본을 설정한 여론조사와는 결과에서 차이가 날 수밖에 없다.”

    -구글 트렌드를 통한 대선후보 검색량 비교가 여론조사 결과보다 더 믿을 만한가.
    “그럴 수 있다. 빅데이터는 기본적으로 ‘더 많은 의견의 집약’이기 때문이다. 여론조사는 의향을 드러내지 않는 숨은 투표자(shy voter)의 생각을 잡을 수 없다. 탄핵 정국을 거친 지금과는 반대로 과거에는 야당 지지자 숫자가 제대로 파악되지 않았다. 정치적으로 민감한 이슈일수록 빅데이터 기반의 예측이 훨씬 높은 신뢰성을 가질 수 있다.

    현재까지 진행된 연구 결과로 볼 때 구글 트렌드를 필두로 한 빅데이터는 충분히 신뢰할 만하다. 여론조사에 대한 불신이 커질수록 빅데이터 분석에 대한 의존도가 높아질 것이다.”






    댓글 0
    닫기

    매거진동아

    • youtube
    • youtube
    • youtube

    에디터 추천기사