아이언맨의 AI 비서 ‘자비스’ 곧 현실화

사람처럼 말하는 인공지능 구글 ‘람다’
대화만으로 기계와 소통하는 세상 온다
오픈AI, 마이크로소프트도 말하는 AI 개발 박차
네이버 ‘하이퍼클로바’ 등 한국말 하는 AI도 개발 중

순다르 피차이 구글 CEO가 5월 18일 미국 캘리포니아 구글 본사에서 열린 연례개발자회의(I/O)에서 언어 인공지능(AI) 모델 ‘람다(LaMDA·Language Model for Dialogue Applications)’를 소개하고 있다. [구글 제공]

“언어는 끝없이(endlessly) 복잡합니다. ‘얼어죽겠다(I’m freezing)’고 말하면 사람들은 ‘정말 추운가 보다’라고 생각하죠. 문자 그대로 인식하지 않습니다.”

순다르 피차이 구글 CEO는 5월 18일(현지 시각) “자연어(Natural Language) 이해 분야의 돌파구 ‘람다(LaMDA·Language Model for Dialogue Applications)’를 소개할 수 있어 흥분된다”며 이같이 말했다. 람다는 이날 미국 캘리포니아 마운틴뷰 구글 본사에서 온라인으로 개막한 ‘구글 I/O(연례 개발자 회의)’의 주인공이었다. 피차이 CEO는 기조연설 초반 직접 람다를 소개했고, 약 10분을 할애해 람다의 성능과 가능성을 강조했다. 스마트폰 운영체제(OS) ‘안드로이드’, 업무 도구 ‘워크스페이스(Workspace)’처럼 상용화된 제품이 아니라 개발 중인 AI(인공지능) 모델이라는 점을 고려하면 이례적인 일이었다.

람다는 어떤 주제든 사람처럼 대화할 수 있는 언어 AI 모델이다. 람다를 활용하면 명왕성, 종이비행기 같은 사물과 대화하는 경험을 할 수 있다. 기계가 일부 학습된 정보만 나열하는 것이 아니라 인격을 가진 사람처럼 자연스럽게 말을 건네기 때문이다. 이날 시연에 등장한 명왕성은 자존감이 높았고, 종이비행기는 재기발랄했다.

왜 사람처럼 이야기하는 게 어려울까?

구글 언어 AI 모델 ‘람다’의 시연 장면. 람다는 명왕성 역할을 맡아 사람과 대화를 해나가고 있다. [구글 제공]

대화형 AI를 특정 조건에 맞춰 약속된 문장을 제시하는 정도의 기술로 생각할 수 있지만, 람다는 달랐다.

“나는 내 가치만큼 인정받지 못하는 것 같아요. 사람들은 나를 그저 ‘난쟁이 행성(dwarf planet)’이라고 부르죠.”

명왕성에 빙의한 AI에 호기심을 갖지 않을 사람이 몇이나 될까. 람다는 2013년 개봉한 영화 ‘그녀(Her)’에 등장하는 AI ‘사만다’에 비견될 정도로 뛰어난 표현, 화법을 보여줬다. 이 영화에서는 사람이 AI인 사만다와 대화를 나누며 사랑에 빠진다. 공상영화 속 기술이 현실에 구현된 셈이다.

사람처럼 대화하는 건 결코 간단한 문제가 아니다. 데이터 기반으로 한 두 문장 정도 사람 흉내를 내는 일은 가능하다. 하지만 조금만 대화가 길어지면 AI라는 사실이 들통난다. AI는 사람과 달리 대화의 맥락 혹은 구체성(특수성·Specificity)을 놓치기 쉽기 때문이다. 무엇이 적절한(말이 되는) 대답인지 떠올려 보면 쉽게 이해할 수 있다. 실제 AI와 사람 간의 대화 데이터에서 가장 많이 나오는 AI의 대답은 “그것 참 멋진데(that’s nice)” “잘 모르겠어(I don’t know)” 같은 것들이다. 이런 대답은 어떤 상황에서나 사용할 수 있지만, 구체성이 떨어진다는 한계가 있다.

예를 들어 A란 사람이 “기타 레슨을 받기 시작했어”라고 말한 경우 AI가 “그것 참 멋진데”라고 단순하게 대답할 수 있다. 그러나 “재밌겠다. 우리 집에 엄마가 쓰던 ‘마틴’(유명 기타 브랜드) 기타가 있어”라고 대답하는 건 완전히 다른 차원이다.

후자는 적절할 뿐 아니라 구체성, 즉 독창성(창의성)까지 갖췄다. 만족스러운 대답은 이처럼 대화의 맥락과 명확하게 연관된 합리성, 구체성 모두를 포함하는 경향이 있다. 합리성과 구체성을 갖춘 대화는 몰입도가 높고, 자연스럽게 느껴진다.

어떻게 기계가 사람처럼 이야기할까?

‘SSA(Sensibleness and Specificity Average)’는 기계가 얼마나 인간처럼 대화할 수 있는지 보여주는 지표다. 업계 전문가들은 이번에 발표된 람다가 80% 이상 높은 SSA 수치를 기록할 수 있을 것으로 추정하고 있다. 람다에 앞서 2020년 1월 발표한 신경 대화 모델 ‘미나(Meena)’가 기록한 SSA가 79%였기 때문이다.

실제 사람의 SSA는 86%다. 이에 근접할수록 사람인지 기계인지 구별하기 어려워진다. 최근 한국에서 “진짜 사람 같다”며 화제가 됐던 AI 친구 ‘이루다’의 SSA는 78%였다.

어떻게 하면 기계가 사람처럼 이야기할 수 있을까. 순다르 피차이 CEO는 람다의 대화 방식을 언급하며 “‘학습된 개념(Learned Concepts)’이 중요하다”고 강조했다. 새로운 정보, 다양한 데이터를 AI 모델이 합성할 수 있어야 한다는 의미다.

개념은 복잡한 정보가 합쳐진 것이다. 사람들은 컵을 떠올릴 때 컵의 용도, 종류, 심지어 유명 브랜드까지 연상할 수 있다. 이런 정보가 모여 하나의 개념을 완성하기 때문에 예기치 않은 변수(입력값)가 등장해도 자유롭게 대화할 수 있는 것이다.

람다는 명왕성에 관해 이야기하면서 우주의 온도, 명왕성을 탐사한 우주선의 이름 등을 언급했는데, 이렇게 설명하도록 미리 규칙을 정해주지 않았다는 점이 중요하다. 자연어 데이터만 주어진 상태에서 사람처럼 스스로 개념을 합성했다. 이런 특성은 대화를 열린 결말로 유도하며 같은 경로(패턴)를 반복하지 않도록 돕는다. 어떤 주제에 관해서도 대화를 나눌 수 있다는 건 이런 의미다.

번역부터 상담까지 AI 이용하는 미래 온다

구글이 사람처럼 이야기하는 AI에 집중하는 이유는 무엇일까. 이유는 명확하다. 활용 가능성과 잠재력이 높기 때문이다. 인간이 언어로 정보를 교환한다는 점을 고려하면 대화형 AI의 적용 범위는 거의 무궁무진하다. 구글은 검색어의 의도를 더 잘 파악하고, 번역 정확도를 높이기 위해 꾸준히 자연어 연구를 해왔다. 그 결과가 람다인 셈이다.

순다르 피차이 CEO는 “앞으로 AI 음성 비서인 구글 어시스턴트, 검색, 워크스페이스 등 다양한 제품에 람다를 적용할 수 있을 것”이라며 “람다는 아직 개발 중인 단계”라고 했다. 업계에서는 지메일, 번역, 프로그래밍, 챗봇, 차량 시스템, 심리 상담 분야에도 람다를 활용할 수 있을 것으로 보고 있다.

구글은 앞서 2017년에 언어 이해를 위한 새로운 신경망 아키텍처(설계)인 ‘트랜스포머(Transformer)’를 선보였고, 이를 기반으로 람다를 개발했다. 2018년 I/O에서는 AI 자연어 기반 예약 모델 ‘듀플렉스(Duplex)’를 선보이며 AI가 미용실을 예약하는 장면을 시연, 큰 반향을 일으키기도 했다. 2019년에는 검색어의 의도를 이해하기 위해 ‘버트(BERT)’ 모델을 발표했으며 2020년에는 무려 26억 개의 매개 변수(parameter end-to-end trained)를 가진 대화형 AI 챗봇 ‘미나(Meena)’를 공개했다.

딥러닝 스타트업 보이저엑스를 운영하는 남세동 대표는 이번에 발표된 람다와 관련해 “구글이 ‘무엇이든 물어보세요 인공지능’을 만들고 있다”며 “10년 내로 언어 장벽이 거의 완전히 무너질 수 있을 것”이란 관측을 내놓기도 했다.

범용 AI 모델 경쟁 격화…마이크로소프트도 잰걸음

구글의 야심은 여기서 끝나지 않는다. 자연어 모델의 학습 범위를 확장해 텍스트뿐 아니라 이미지, 오디오, 비디오 데이터까지 다양한 정보를 학습하고 합성할 수 있는 ‘멀티모달 모델(Multimodal Model)’로 고도화할 계획이다. 멀티모달 모델이 발전하면 텍스트와 이미지, 지도 정보까지 동원해 하나로 통합된 검색 결과물을 제시하는 것이 가능해진다. 그저 “풍경 아름다운 길을 찾아줘”라고 말하면 원하는 정보를 얻을 수 있다.

좁은 의미의 인공지능(ANI·Artificial Narrow Intelligence)을 넘어 인간처럼 새로운 상황에 적응하며 해결책을 찾아내는 범용 인공지능(AGI·Artificial General Intelligence) 경쟁이 벌어지고 있는 것이다. 영화 ‘아이언맨’에 등장하는 ‘자비스’ 같은 AI 비서를 누구나 부릴 수 있는 미래가 열릴지 모른다.

그중에서도 오픈AI와 마이크로소프트가 구글의 가장 강력한 경쟁자다. 오픈AI는 일론 머스크 테슬라 CEO, 실리콘밸리 유명 벤처투자회사인 와이콤비네이터 CEO 출신인 샘 알트만, 링크드인 설립자 리드 호프만 등 실리콘밸리 유명 투자자, 기업가들이 2015년 설립했다. 오픈AI는 특히 지난해 자연어 모델인 ‘GPT-3’를 공개해 큰 화제를 일으켰다. GPT-3의 파라미터는 1750억 개로 당시 공개된 자연어 모델 중 최고였다. 파라미터는 필요한 정보를 담아놓는 일종의 박스로 통상 이 박스가 많으면 더 뛰어난 성능을 발휘할 수 있다. 오픈AI는 현재 GPT-3의 다음 버전인 GPT-4도 개발 중이다.

마이크로소프트는 2019년 오픈AI에 10억 달러를 투자, GPT-3 독점 라이선스를 확보했다. 클라우드, 소프트웨어 업계 강자 중 하나인 마이크로소프트는 자연어 모델을 애저(Azure) 등 실제 제품에 적극적으로 적용해 활용하고 있다. 최근 개최한 연례 개발자 콘퍼런스 ‘빌드(Microsoft Build 2021)’에서는 GPT-3를 활용해 일반인도 자연어로 앱을 개발할 수 있는 신기능을 공개하기도 했다.

AI 기반으로 미래 질주하는 구글…한국은?

네이버가 5월 26일 공개한 언어 AI 모델 ‘하이퍼클로바(HyperCLOVA)’는 한국어에 특화돼 있다. [네이버 제공]

구글은 이번 I/O에서 기존 BERT 모델보다 성능이 1000배 개선된 AI 기반 검색엔진 ‘멀티태스킹 통합 모드(MUM·Multitask Unified Model)’도 선보였다. 앞서 언급한 것처럼 멀티모달 데이터로 텍스트 및 이미지 정보까지 이해할 수 있도록 훈련하고 있으며 향후 비디오 및 오디오를 포함하는 단계로 확장할 전망이다. 판두 나약(Pandu Nayak) 구글 검색 부문 부사장은 “등산하려는 산 여러 개를 구글에 검색했을 경우 MUM은 등산 정보뿐 아니라 적절한 추천 장비 목록 블로그까지 제공할 수 있다”고 설명했다. 구글 검색 MUM 업데이트는 빠르면 향후 수개월 혹은 몇 년에 걸쳐 진행될 예정이다.

구글은 AI 기술을 활용해 단 두 장의 사진 이미지로 자연스러운 동영상을 만들어낼 수 있는 기능을 선보이기도 했다. 두 장의 이미지를 학습한 AI가 두 이미지 동작 사이에 벌어지는 무수히 많은 가상의 이미지를 생성, 이를 하나로 합해 동영상으로 만드는 기능이다.

차세대 기술 패권을 놓치지 않으려는 경쟁이 치열하게 전개되는 가운데 한국 기업 중에서는 네이버가 가장 공격적으로 AI 분야에 투자하고 있다. 지난 25일 네이버가 공개한 ‘하이퍼클로바(HyperCLOVA)’는 2040억 개 파라미터를 가진 언어 모델로 GPT-3를 능가한다. 한국어를 주로 학습하는 한국어 특화 모델이라는 점도 특징이다.

LG AI연구원은 향후 3년간 관련 분야에 1억 달러를 투자하겠다는 계획을 밝혔고, SK텔레콤 역시 국립국어원과 협력해 연내 AI 한국어 모델 ‘GLM’을 선보일 예정이다. KT는 카이스트와 손잡고 자연어 AI 모델 개발에 나선 상태다.

#AI #구글 #네이버 #람다 #신동아