글자·사진 동시 이해 멀티모달 AI
보고, 듣고, 생각한다
문장 ‘읽고’ 그림 완성
멀티모달의 미래는…
[Gettyimage]
4월 6일 구글은 미국 뉴욕 맨해튼 소호 지구에서 구글의 새 검색 서비스 ‘멀티서치’의 쇼핑 체험 이벤트를 열었다. [박원익]
4월 6일 미국 뉴욕 맨해튼 소호 지구. 디자이너숍, 아트 갤러리, 유명 브랜드 매장이 늘어선 쇼핑 중심지에 실리콘밸리 기업 ‘구글’ 로고가 등장했다. 최신 인공지능(AI) 기술로 구현한 새로운 검색 기능 ‘구글 멀티서치’를 체험하는 오프라인 이벤트가 열린 것이다.
의류 편집숍 형태로 꾸며진 행사장은 멀티서치가 쇼핑 경험을 어떻게 개선할지에 초점이 맞춰졌다. 비치된 청바지, 운동화, 가방 등의 잡화를 스마트폰으로 촬영한 후 검색어를 추가하면 비슷한 특성을 가진 다른 상품을 찾을 수 있었다. 예컨대 바둑판 패턴의 청바지를 발견했는데, 같은 패턴의 치마를 사고 싶다면 그 제품을 촬영한 다음 ‘치마’라는 검색어를 넣는 식이다.
실제 쇼핑 경험을 떠올려 보면 이 기능이 얼마나 유용한지 금방 알 수 있다. 마음에 드는 제품의 이름이나 브랜드를 모르더라도 이미지와 텍스트를 동시에 적용, 검색 결과 범위를 좁힐 수 있다. ‘이효리 가방’ ‘BTS 지민 스웨터’ 같은 검색어를 사용하지 않고도 원하는 상품을 찾을 수 있으며 단어를 바꿔가며 여러 번 검색하는 일도 줄일 수 있다.
멀티서치는 현재 베타(테스트) 버전으로 공개돼 미국에서 영어로만 사용이 가능하다. 적용 국가 및 언어는 추후 확장될 전망이다. 구글 측은 “멀티서치 기능은 AI 기술 발전 덕분에 가능했다. 멀티서치를 사용하면 더 자연스럽고 직관적인 방식으로 주변 세계를 이해할 수 있다”며 “향후 이 기능을 더 발전시켜 상상할 수 있는 모든 질문에 대한 검색 결과를 개선할 것”이라고 밝혔다.
보고, 듣고, 생각하는 AI
구글 멀티서치 구동 화면. [Google]
멀티모달은 기계가 텍스트, 사진 등 다양한 양식의 정보를 동시에 이해할 수 있다는 의미다. 등반 전문가에게 등산화를 보여주며 “이 등산화로 에베레스트산에 오를 수 있을까요”라고 묻는다면 바로 답을 내놓을 수 있지만, 기계는 그렇지 않다. ‘등산화(이미지)’와 ‘질문(텍스트)’이 서로 다른 양식의 정보이기에 동시에 학습하거나 처리하는 데 어려움을 겪는 것이다.
지금까지의 AI는 이미지나 음성, 언어 등 특정 분야에 특화된 작업을 수행하도록 학습·개발돼 왔다. 이는 단일 양식의 데이터 샘플을 제공하기가 상대적으로 쉬웠기 때문이다. 빠른 AI 성능 개선을 위해서도 단일 양식의 데이터에 집중해 관련 솔루션을 도출하는 편이 유리했다.
문제는 이런 방식의 접근으로는 ‘더 높은 차원의 추론’이 어렵다는 점이다. 컴퓨터 비전(이미지 처리) 등 특정 분야에서는 인간을 능가할 정도의 훌륭한 성과를 만들 수 있으나 인간처럼 종합적으로 현상을 인식해 사용자의 요구 사항을 충족하는 결과를 내놓는 건 전혀 다른 문제다.
다양한 데이터를 고려해 결과를 즉각 내놓아야 하는 검색, 추천 분야에서 멀티모달 모델이 사용되기 시작한 것은 이런 이유에서다. 2021년 페이스북은 인스타그램 쇼트폼 영상 서비스 ‘릴스(Reels)’에 멀티모달 기반 추천 방식을 적용했다. AI가 영상 데이터와 음성 데이터를 종합적으로 인식, 비슷한 음악 및 동작이 등장하는 비디오를 추천하도록 만든 것이다.
예컨대 멀티모달 모델은 음성 데이터(엔진 소리)가 비슷해도 비디오 데이터가 농기계냐 모터사이클이냐에 따라 별도의 콘텐츠로 분류한다. 이런 구별은 여러 데이터를 종합적으로 인식할 수 있어야만 가능하며 완전히 다른 차원의 사용자 경험으로 발전할 수 있다. 페이스북은 이와 관련해 “전 세계 국가, 수백 가지 언어로 된 비디오를 학습함으로써 콘텐츠 추천 등 핵심 AI 성능이 계속 개선될 것”이라며 “인간처럼 학습하는 기계를 만들기 위한 광범위한 노력의 일부”라고 설명했다.
문장 보고 그림 완성하는 ‘달리2’
오픈AI 인공지능 화가 ‘달리2’가 만든 이미지. [오픈AI]
오픈AI는 4월 6일 이미지 생성 모델 달리의 후속 버전 ‘달리2’를 발표, 업계를 놀라게 했다. 달리2는 텍스트로 설명한 내용을 이미지로 생성하는 데 특화한 AI 모델인데, 고해상도 이미지를 짧은 시간 안에 생성하는 놀라운 성능으로 주목받은 것이다.
예를 들어 “말을 탄 우주비행사를 사진 스타일로 그려줘”라는 문장을 입력하면 달리2가 즉시 딱 맞는 이미지를 조합해 보여준다. 같은 문장의 뒷부분을 ‘앤디 워홀 스타일’로 바꾸면 마치 팝아트의 거장 앤디 워홀이 그린 것 같은 이미지가 뜬다.
이미지 생성뿐만 아니다. 프레임 속 특정 피사체 위치를 바꾸거나 오리지널 작품을 응용해 비슷한 느낌의 이미지를 만들어내는 것도 가능하다. 복잡한 배경, 심도, 그림자 등을 포함한 고해상도 이미지를 만들고 수정할 수 있는 일종의 만능 그리기 도구인 셈이다.
알렉스 니콜 오픈AI 연구원은 ‘포천’과 인터뷰하면서 “누구나 만들고 싶은 것을 만들 수 있도록 돕고 싶다. 달리2 같은 도구가 창작의 민주화를 가능케 할 것”이라고 했다. 그는 이어 “달리2가 디자이너와 예술가에게 영감을 줄 수 있다”며 “컴퓨터 게임 회사들의 경우 달리2를 게임 캐릭터 및 장면 제작에 활용할 수 있을 것으로 본다”고 했다.
물론 달리2가 완벽한 건 아니다. ‘뉴욕타임스’에 따르면 데모 시연 중 ‘달 위에 올라간 에펠탑’이라는 문장을 입력했더니 에펠탑 위에 달을 올린 이미지가 도출됐다. 누군가를 비방할 목적으로 악의적 이미지를 만드는 일을 막기 위해 테스트에 참여할 수 있는 사람 숫자도 400명 수준으로 제한해 둔 상태다.
엔비디아도 AI 화가 ‘고갱2’ 공개
엔비디아 인공지능 화가 ‘고갱2’ 구동 화면. [Nvidia]
오픈AI는 자체 개발한 멀티모달 모델 ‘CLIP(Contrastive Language–Image Pre-training)’을 활용한다. CLIP은 텍스트와 이미지 쌍으로 이뤄진 데이터를 학습해 정확도를 높인다. 무엇보다 텍스트와 이미지를 함께 학습함으로써 사람이 일일이 이름표를 지정(labelling)해 주는 형식보다 유연하다는 게 특징이다. 예컨대 ‘달팽이로 만든 하프’ ‘아보카도 모양의 의자’ 같은, 실재하지 않는 상상의 이미지까지 만들어낼 수 있다. 이는 인간처럼 맥락을 이해하고 추가 학습 없이도 시각적 추론이 가능하다는 의미다.
구글, 페이스북, 오픈AI(마이크로소프트) 외 다른 글로벌 기업들도 멀티모달 AI의 놀라운 가능성을 확인하고 이 분야에 뛰어드는 추세다. AI 모델 개발 경쟁에서 뒤처지지 않기 위한 총성 없는 전쟁이 벌어지는 것이다.
반도체 분야 선두 주자 엔비디아가 2021년 11월 22일 공개한 AI 아트 애플리케이션 프로젝트 ‘고갱2(GauGAN2)’ 역시 멀티모달 기반으로 작동한다. 고갱은 후기 인상주의 화가 ‘폴 고갱’에서 이름을 따온 그림 그리기 도구로 오픈AI 달리2처럼 텍스트 기반 이미지 생성 기능을 제공한다.
서너 단어만 입력해도 실시간으로 해당 단어에 부합하는 이미지가 생성되며 ‘해변의 일몰’이라는 문구를 쓰고 거기에 ‘바위 해변에서의 일몰’처럼 형용사를 추가할 수도 있다. ‘일몰’을 ‘오후’ 또는 ‘비 오는 날’로 바꾸면 이미지가 자동으로 수정된다.
‘스타워즈’ ‘트랜스포머’ ‘어벤져스’ 등 유명 블록버스터 영화에 참여한 수석 콘셉트 아티스트 겸 모델러 콜리 워츠(Colie Wertz)는 엔비디아 고갱으로 제작한 공상 선박 디자인을 개발해 소셜미디어에 공유하면서 “고갱이 전혀 예상치 못한 방향으로 영감을 줬다. 이전에는 상상조차 하지 못했던 것을 쉽게 구현해 낼 수 있었다”고 밝히기도 했다.
한국 기업도 뛰어들어… 멀티모달 미래는?
카카오브레인이 4월 19일 발표한 인공지능 화가 ‘RQ-트랜스포머’가 ‘사막의 에펠탑’이라는 문구만 보고 그린 그림. [카카오브레인]
네이버는 3월 블로그, 카페, 쇼핑, 뉴스 등 자체 서비스로 축적한 데이터를 활용, 멀티모달 AI 검색 서비스인 ‘옴니서치’를 구축한 바 있다. 구글 렌즈처럼 사용자가 스마트렌즈로 사진을 촬영한 후 검색어를 추가해 검색 결과를 좁히는 방식이다. 옴니서치는 현재 운동화 부문에서만 사용할 수 있다.
카카오의 AI 개발 자회사 카카오브레인은 2021년 12월 멀티모달 AI 화가 ‘민달리(minDALL-E)’를 발표했고, 4월 19일에는 민달리의 성능을 끌어올린 개선 버전 ‘RQ-트랜스포머(Transformer)’도 공개했다.
카카오브레인은 20억 건 수준의 이미지·텍스트 데이터 세트를 확보한 것으로 알려졌다. 데이터 세트 규모만 보면 구글(18억 건), 오픈AI(10억 건)를 능가하는 수준이다. 김일두 카카오브레인 대표는 이와 관련해 “자연어로 복잡한 이미지 검색을 할 수 있는 글로벌 최대 규모의 초거대 멀티모달 AI 모델을 선보일 것”이라고 했다.
오픈AI로 그린 NFT 아트워크. [오픈AI]
일러스트레이팅, 비주얼 아트 등 일부 디자인 산업, 예술 분야에도 멀티모달 AI가 영향을 미칠 것으로 보인다. 멀티모달 AI를 활용해 작업하거나 비전문가가 간편하게 이미지를 생성하는 사례가 늘어날 것이다. 달리2로 아트워크를 만들어 NFT(대체불가능토큰) 형태로 판매할 수 있을 것이라는 관측까지 제기된다. 미국 VC(벤처캐피털) 틸 캐피털(Thiel Capital)의 매니징 디렉터 에릭 와인스타인은 “달리2와 웹3(Web3, 블록체인 기반 웹), NFT 분야의 협업 혹은 충돌이 기대된다”고 했다.