“개인정보 보호하면서 빅데이터 활용, 선진국은 다 한다”

모든 학문이 빅데이터 분석으로 바뀌고 있다
데이터가 많을수록 예측은 정확해진다
사생활 보호하면서 빅데이터 활용할 기술 있다
코딩이 아니라 컴퓨터적 상상력이 중요
4차 산업혁명은 ‘데이터가 지배하는 혁명’

_{‘신동아’는 인문학재단 플라톤아카데미와 함께 ‘인문을 과학하다’ 시리즈를 진행한다. 플라톤아카데미는 2010년 11월 설립된 국내 최초 인문학 지원 재단으로 인류의 오랜 지식과 지혜를 바탕으로 우리가 당면한 삶의 근원적 물음을 새롭게 전한다는 취지로 연구 지원, 대중 강연, 온라인 포털 등 다양한 사업을 진행하고 있다. 2019년 플라톤 아카데미 설립 10주년을 맞아 신동아와 함께 기획한 ‘인문을 과학하다’는 인문학과 과학이라는 언뜻 멀어 보이지만, 우리 삶에 깊이 들어와 섞여 있는 두 세계의 깊이 있는 소통을 추진하는 프로젝트다. 전문가들과의 깊이 있는 인터뷰를 통해 AI 빅데이터 등 4차 산업혁명의 실체를 분석하고 기술이 무엇을 할 수 있을지 따져보는 동시에 기술이 무엇을 해야 하는지, 인간은 무엇을 고민해야 하는지 성찰하는 계기를 만들고자 한다. [편집자 주]}

플라톤아카데미와 함께하는 ‘인문을 과학하다’ 두 번째 주제는 빅데이터다. 인터뷰 주인공은 심규석 서울대 전기정보공학부 교수. 그는 서울대 전기공학과를 졸업하고 미국 메릴랜드주립대에서 데이터베이스 분야로 박사 학위를 받았다. 대학원 시절 휴렛팩커드 연구소에서 인턴을 했고, 박사 학위를 받은 후에는 미국 연방준비위원회, IBM 알마든 연구소, 벨 연구소, 마이크로소프트 연구소 등에서 빅데이터 관련 다양한 연구 경험을 쌓았다.

빅데이터를 분석하고 처리하기 위한 데이터마이닝과 데이터베이스 분야에서 심도 있는 연구 활동을 해왔다. 현재 구글 스칼라 기준으로 그가 쓴 논문들은 총 1만8900건 이상의 피인용 횟수를 기록하고 있다. 2013년 컴퓨터 과학 분야에서 세계 최고 권위를 가진 국제컴퓨터학회(ACM)의 석학회원(Fellow), 2019년 국제전기전자공학회(IEEE) 석학회원으로 선정됐다.

인터뷰는 2019년 12월 6일 서울대 그의 연구실에서 진행됐다. 우선 가장 기초적인 질문부터 던졌다.

데이터가 많을수록 예측은 정확해진다

2019년 12월 6일 ‘신동아’와 대담하는 심규석(오른쪽) 서울대 교수. [조영철 기자]

-빅데이터란 무엇인가.

“거기에 답하기 전에 데이터마이닝에 대해 말하고 싶다. 처음에 컴퓨터가 나왔을 때는 어떻게 하면 데이터를 안전하게 저장할 것인지가 화두였다. 전기가 나가거나 컴퓨터가 망가져도, 같은 데이터를 여러 사람이 동시에 수정하려 해도 데이터가 훼손되지 않는 게 중요했다. 그러다 인터넷과 컴퓨터 기술의 급격한 발전으로 데이터가 대거 쌓이기 시작했고, 1990년대 말이 되면서 데이터를 가지고 무엇을 할지에 대한 관심이 생기면서 ‘데이터마이닝’ 연구가 시작됐다.”

-마이닝(mining)이란 게 사전적 의미로 채굴, 채광 아닌가.

“그렇다. 석유를 뽑아내고 석탄을 캐내는 것처럼 데이터라는 거대 광산에서 뭔가를 찾아낸다는 뜻이다. 땅속에 뭐가 묻혀 있을지 모르지만 일단 캐보는 것처럼 거대한 데이터를 모두 뒤져 그 안에 들어 있는 유용한 패턴이나 지식을 캐낸다는 의미다. 여기서 말하는 거대한 데이터가 바로 빅데이터다.

처음엔 샘플 데이터 일부만 갖고도 패턴 분석이 가능한데 왜 데이터를 무조건 많이 쓰느냐는 공격을 받기도 했지만 지금은 데이터가 많으면 많을수록 이를 이용해 예측하는 것이 더 정확하다는 점이 일반적으로 받아들여지고 있다.

흔한 예인데 미국에서 ‘아기 기저귀를 사는 사람은 맥주를 같이 산다’는 패턴이 있다. 과거에는 아기 기저귀를 사면 맥주를 살 것이란 가설을 먼저 세운 다음 데이터를 통해 입증했는데, 데이터마이닝은 각종 물건을 산 고객들의 데이터를 통해 이런 결론을 얻어내는 거다.”

인류 역사 이래 이렇게 많은 빅데이터는 처음

[GettyImage]

-어찌 보면 상식일 것 같은데.

“초반에는 그렇게 생각하지 않았다. 내가 대학원에 다니던 시기만 해도 데이터가 별로 없어 제한된 데이터로 여러 가지 가능성에 대해 평균적으로 어떻게 답할지에 골몰했다. 지금은 데이터가 워낙 많아 이를 토대로 실제 들어 있는 패턴을 분석하기에 더 정확한 결과가 나온다.

데이터에 숨은 의미를 파악하려면 컴퓨터 등의 전문 분석 도구와 전문가가 필요하다. 문제는 데이터 양이 많아지면 많아질수록 분석 속도가 느려지는 거다. 컴퓨터 과학 하는 사람들이 매일 하는 게 바로 데이터가 많아져도 어떻게 하면 빨리 분석하느냐에 관한 일이다.

미국 대학원 시절 미국 대기업들이 IBM에 많은 돈을 내고 자기네 데이터를 토대로 분석 보고서를 써달라고 했다. IBM은 이런 컨설팅 사업을 통해 많은 돈을 벌었다. 그때만 해도 데이터가 적으니까 사람이 분석하는 수작업이 가능했는데 점점 데이터가 많아져 사람이 할 수 없게 됐다. 대기업들은 소프트웨어가 그 일을 대신할 수 있는지 여부를 IBM 데이터베이스 연구원들에게 타진했다. 데이터마이닝 분야 연구는 그때 시작되고 급성장했다. IBM에서 이러한 연구를 하기 전에는 데이터마이닝이란 단어도 없었다.”

-인터넷이나 모바일 사용자가 늘어나니 데이터 양은 기하급수적으로 늘어날 텐데.

“가히 폭발적이다. 전화 통화, 문자, 인터넷 검색, 여행, 물건 구매 등으로 최근 몇 년 동안 사람이 만들어낸 데이터가 그 이전 인간이 모든 역사를 통해 만들어낸 양보다 많다. 이런 시대는 인류 역사상 처음이다. 한마디로 21세기 최고 자원이 데이터라고 할 수 있다.”

-이제는 빅데이터가 활용되는 분야가 너무 많아지지 않았나.

“일일이 열거하기가 힘들 정도다. 유튜브나 넷플릭스 동영상 추천은 말할 것도 없고 신용카드 회사에서 하는 소비 행태 분석, 여행사, 금융업, 의료, 제조업 분야에 이르기까지 도입되지 않은 곳이 거의 없다고 해도 과언이 아니다. 커피 회사인 네슬레나 스타벅스도 빅데이터 분석을 통해 신제품을 개발한다. 오렌지주스를 파는 코카콜라의 경우 인공위성을 통해 얻은 데이터를 토대로 작황, 강수량, 햇빛의 양 등을 분석해 해마다 어느 지역 오렌지를 사야 일관된 맛을 유지할 수 있는지 알아낸다. 특히 제조업 분야를 이끄는 혁명적 변화에 주목할 필요가 있다.”

그는 저비용항공사(LCC)를 먼저 예로 들었다.

“요즘에 LCC가 가능해진 이유가 보잉 같은 제조회사에서 비행기를 팔 때 부품에 센서를 부착한 뒤 빅데이터 분석을 통해 교체 시점을 알려주는 방식으로 사고나 고장을 미리 예방해 경비를 대폭 절감해주는 데 있다.

자동차 리콜도 사고 나기 전에 미리 한다. 이 역시 자동차에 설치한 센서를 통한 빅데이터 분석을 통해 뭐가 잘못됐는지 사전에 파악한다. 세계적 엘리베이터 회사인 쉰들러도 판매하는 엘리베이터에 센서를 부착해 데이터 분석을 하고 있다. 굳이 기계 전문가가 아니더라도 여기 여기를 미리 고치라고 얘기해줄 수 있다.

경운기 트랙터 등을 파는 존디어라는 미국의 농기구 회사가 있는데 그 회사에도 구글 직원들이 들어가서 장비에 부착한 센서를 통해 빅데이터 분석을 한다. 언제 씨를 뿌리면 수확이 제일 많이 나오는지까지 분석해 알려준다. 작황 실패 리스크를 줄여주고 연료도 적게 쓰게 하고 있다. 이러니 이런 기계를 사지 않을 수가 있겠나.”

-범죄 예방에도 적용된다고 들었다.

“대표적인 곳이 미국 로스앤젤레스다. 지진이 발생하면 여진이 어떻게 퍼져나가는지 알 수 있는 분석 방식을 이용해 강력사건이 일어나면 다음에 어느 지역에서 범죄가 일어날지 예측하는 것이다. 범죄자들의 행동, 심리 패턴까지 알아야 하니까 인류학자, 심리학자까지 협업한다. 은행에서 현금인출기를 어디에 놓아야 할지 위치를 정할 때도 주변 상황을 분석해 강도나 도둑으로부터 안전한 위치를 결정한다.

모든 학문이 빅데이터 분석으로 다 바뀌고 있다고 보면 된다. 천문학의 경우만 해도 수백 년 동안 천문학자들이 천체를 관측하며 별의 움직임이나 상대적인 위치를 수집해왔다. 그런데 요즘은 남아프리카에 설치된 수많은 천체망원경이 각각 초당 30테라바이트의 데이터를 수집하고 있다. 역대 최대 규모다. 전대미문의 방대한 정보가 쌓이니 천문학의 새로운 패러다임이 나오고 있다.

의학계도 마찬가지다. 보험회사는 가입자들이 병원을 덜 가야 이익을 늘릴 수 있기 때문에 환자 데이터 분석을 통해 의사를 도와주고 있다. 놀이동산 같은 곳에서도 이용자 동선을 파악해 쉬는 놀이기구는 없는지 점검하고 사람이 많이 모인 곳에 안전요원을 재빨리 배치한다든지 한다.

공장 재고 관리, 공정 분석 등을 통해 비용을 아끼는 회사는 셀 수 없이 많고, 위스키 제조회사가 병마개에 큐 마크를 달아 위조를 방지하고 고객 스마트폰 이력 정보를 통해 어디서 어떤 술이 많이 판매되는지 파악하는 것은 이미 고전적 이야기가 돼버렸다. 축산업에서는 동물들의 발정기를 놓치지 않고 번식을 많이 하도록 하는 데 빅데이터 분석을 이용하고 있다.”

디퍼렌셜 프라이버시 기술로 개인정보 보호

노웅래 국회 과학기술방송정보통신위원장과 위원들이 2019년 12월 4일 서울 여의도 국회에서 열린 전체회의에서 ‘데이터3법’ 정보통신망법을 부대 의견을 달아 의결하고 있다. [뉴스1]

-빅데이터 활용이 4차 산업혁명을 선도하는 기술임에는 틀림없지만 개인정보가 포함돼 있다는 점에서 사생활 침해라는 역기능이 있다. ‘데이터 3법’(개인정보보호법, 정보통신망법, 신용정보법 개정안)이 국회 문턱도 넘지 못하고 있어 이래서는 새로운 미래를 대비할 수 있을지 걱정이 많다.

“개인정보 보호와 데이터 활용은 우리만의 문제가 아니라 전 세계 각국이 당면한 과제다. 데이터 대량 생산 및 활용, 컴퓨터 기술 발달에 따라 기존에는 전혀 생각하지 못했던 문제들이 발생하면서 ‘빅데이터 활용’과 ‘개인정보보호’라는 두 마리 토끼를 잡는 기술이 활발하게 개발되고 있다. 개인정보 보호 기술 개발은 상당히 진척을 보이고 있기 때문에 글로벌 스탠더드에 맞춰 추세를 따라가면 쉽게 해결된다고 본다.”

-그래서 한국 정부도 개인정보 침해 문제를 익명 처리 방식을 써서 막아보려고 한 걸로 아는데.

“데이터에 포함된 각종 신상 정보를 통해 누구인지 파악할 수 없도록 익명화한 후 활용하겠다는 것인데 ‘마사지한다’고도 표현한다. 그런데 이게 역부족이라는 게 이미 드러났다. 2006년 미국 최대 인터넷 포털이자 검색엔진인 AOL에서 벌어진 개인 검색 정보 공개 사건이 대표적 사례다. 당시 AOL은 학문 연구에 기여하겠다며 총 2000여만 건에 달하는 이용자 65만여 명의 검색 기록을 개인정보 익명화 작업을 한 후 학술지에 공개했다. 그런데 뉴욕타임스를 비롯한 언론이 익명화된 복수의 정보를 교차 조합·분석해 ‘어떤 병’ ‘어떤 음란물’ 등의 예민한 정보를 검색한 사람들이 누구인지 찾아내 발칵 뒤집혔다. 결국 AOL 최고 임원진이 물러나는 일까지 벌어졌다.

국내에서도 통신 정보·신용 정보·카드결제 정보·의료 정보 등을 교차·결합하면 이름, 주소, 주민등록번호 등이 없더라도 개인을 특정할 수 있고 실제로 이런 비슷한 시도도 있었다. 익명화만으로는 개인정보 보호에 한계가 있다는 이야기다. 요즘 국제적인 추세는 데이터를 아예 다른 방식으로 변화시키는 ‘차분 프라이버시’, 영어로는 ‘디퍼렌셜 프라이버시(differential privacy)’ 기술이 대세다. 빅데이터 관련 국제학회에 가보면 관련된 기조연설을 흔히 들을 수 있다. 미국은 이미 2020년 인구 센서스 조사할 때도 이걸 통해 결과를 발표하기로 했다고 한다.

우리도 세계적 선진 기술 개발 흐름을 재빨리 받아들여 개인의 사생활을 보호하면서도 데이터를 자유롭게 활용할 수 있는 우리만의 체계를 새롭게 만들어야 한다. 방법이 있는데도 외면하는 것이야말로 미래를 거스르는 것이다.”

-한국은 하드웨어가 굉장히 발달해 있다. 반도체도 세계 1위이고 인터넷 망도 엄청 일찍 깔았다. 그런데 왜 이렇게 빅데이터 활용에 뒤처졌을까.

“무엇보다 데이터에 대한 문제의식과 창의적 상상력이 중요한데 이게 모자라다. 요즘 다들 코딩 코딩 하는데 사실 코딩이 중요한 게 아니라 알고리즘이 중요하다. 알고리즘을 만들면 그걸 코드로 바꾸는 건 쉬운 일이다.”

-알고리즘의 정확한 의미는 뭔가.

“음…. 어떤 예를 들 수 있을까. 내가 특정한 주제로 연설한다고 할 때 무엇을 어떻게 논리적으로 연설하겠다고 생각하는 게 바로 알고리즘이다. 한국어 혹은 영어로 연설문을 쓰는 작업이 코딩이다. 건축물로 비유하면 일단 설계한 뒤 벽돌을 쌓고 타일을 붙이고 시멘트를 쓰고 문을 달지 않나? 설계 작업이 바로 알고리즘이다. 알고리즘을 만드는 건 굉장히 어렵다. 어떻게 하느냐에 따라 수행 시간이 달라지고 내가 원하는 일을 해주는 프로그램인지 증명도 해야 하고 게다가 빨라야 한다. 사람이 참고 기다릴 만한 시간 안에 결과가 나와야 된다는 뜻이다 ”

그는 “이 대목에서 가장 중요한 게 ‘컴퓨팅 사고’ 바로 ‘컴퓨테이셔널 싱킹(computational thinking)’이라고 했다.

“사람이나 기계가 효과적으로 일을 수행할 수 있도록 문제를 정의하고 그에 대한 답을 기술하는 것이 포함된 사고 과정 일체가 컴퓨테이셔널 싱킹이다. 예를 들면 학생들에게 동일한 규모의 컨테이너 박스를 하나씩 준 뒤 ‘백화점에 가서 물건들을 박스에 다 채우되 가장 빠른 시간 안에 물건의 총 금액이 가장 크게 하려면 어떤 물건들로 채워야 할까?’ 같은 질문에 답하게 하는 것이다. 물건의 가격과 부피가 데이터라고 할 수 있고 이를 위해 채울 물건들을 선택하는 방법이 알고리즘이라고 할 수 있다.

코딩보다 중요한 게 컴퓨터적 상상력

컴퓨터를 수천, 수만 대 연결하는 병렬 분산 알고리즘이 주목받고 있다. [GettyImage]

우리는 물리, 수학 한 과목만 잘하면 뭐든 된다고 생각하는데 컴퓨터 프로그래밍은 전혀 다른 하나의 학문이다. 학생들이 대학에 와서 프로그래밍을 잘 못하고 두려워하는 이유는 중·고등학교 때 해본 물리나 수학과 달리, 난생처음 접하기 때문이다. 하지만 미국 아이들은 어릴 때부터 컴퓨팅적 사고로 교육을 받아 전혀 두려워하지 않는다.”

-최신 빅데이터 기술 발전 동향에 대해 설명한다면.

“컴퓨터 자체 성능을 고도화하는 것보다 값싼 컴퓨터를 수천 대, 수만 대 연결해 병렬처리하는 기술이 대세다. 아마존이건 마이크로소프트건 페이스북이건 다들 이렇게 처리하고 있다. 어떤 문서를 한국어로 번역한다고 할 때 번역기 하나를 쓰는 것보다 1만 대에 문서를 1만분의 1씩 나눠 넣고 각각 번역을 시키면 속도가 1만 배 빨라지는 것과 같은 이치다. 전문용어로는 병렬 분산처리라고 한다. 병렬분산 알고리즘을 디자인하는 것도 내 연구 분야다. 기계마다 처리 순서가 다르기 때문에 어떤 식으로 병렬처리를 해도 기계 하나로 했을 때랑 똑같은 결과가 나온다는 걸 증명해야 한다. 한 대에만 해야 할 일이 몰리지 않고 모든 컴퓨터가 비슷한 양의 일을 하게 해야 한다. 또 각 컴퓨터에서 처리가 아주 빠르게 되도록 알고리즘을 만들어야 한다. 그걸 알고리즘 디자인이라고 말한다.”

-요즘엔 디지털 포렌식 분야도 각광받던데.

“컴퓨터에서 파일을 삭제해도 그게 다 디스크에 남아 있다. 그걸 가지고 알아내는 거다. 그런데 수사관이 일부러 파일을 고쳐 어떤 사람을 범죄자로 몰수도 있지 않겠는가. 그런 일이 일어나지 않게 오리지널 데이터를 훼손하지 않았다는 걸 증명할 수도 있어야 한다.”

-클라우드 컴퓨팅은 무슨 뜻인가.

“개인이 물이나 전기를 쓸 때 자체 발전기 없이도 물값이나 전기값만 내고 쓰는 것을 생각하면 좋겠다. 예를 들면 서울대 같은 경우에 컴퓨터를 제일 많이 쓸 때가 수강 신청하는 날인데 그날 한번 쓴다고 비싼 컴퓨터를 사놓으면 낭비 아닌가. 클라우드 컴퓨팅을 쓰면 그때만 비용을 지불하고 쓸 수 있으니까 경비가 훨씬 절약된다. 보안도 전문가들이 대신 해주니 걱정할 필요가 없다. 아마존이 지금 막대한 수익을 올리는 분야다.”

-데이터도 중요하지만 데이터를 대하는 태도도 중요해 보인다. 기본적으로 솔직해야 되겠다.

“중요한 지적이다. 머릿속에 뭔가를 가둬놓고 틀을 만들어 놓으면 안 된다. 데이터가 말하는 것에 주목해야 한다. 정부 정책을 내놓을 때도 과거 데이터를 활용해 패턴을 분석하면 어떤 결과가 나왔는지 알 수 있어서 쓸데없는 리스크와 비용을 줄일 수 있다. 정치인들이 알고리즘만 배웠어도 정치를 이렇게 엉망으로 안 할 텐데(웃음).”

-4차 산업혁명을 한 단어로 정의한다면?

“데이터가 주도하는 세상.”