AI 혁명 세 번째 물결, 누가 주도권 잡나

GPU 중심 모델 학습→ CPU 중심 에이전틱 추론
AI 인프라 패러다임의 전환…세 번째 물결
①‘AI 학습 시대’는 엔비디아·TSMC 최대 수혜
②‘AI 추론 시대’는 삼성전자 등 메모리 기업
③‘에이전틱 AI 시대’? 인텔·AMD 등 CPU 기업 주목

에이전틱 AI의 자율적 논리 실행을 담당하는 CPU의 중요성이 커지면서 인텔과 AMD에 대한 관심도 커지고 있다. 뉴시스

2026년을 기점으로 인공지능(AI) 기술의 발전 궤적은 근본적이면서도 구조적 변화를 맞이하고 있다. 지난 10년 동안 인공지능 산업의 성장을 견인했던 핵심 동력이 거대언어모델(LLM)의 학습과 초기 챗봇 형태의 단일 추론이었다면, 이제는 인공지능 에이전트(AI agent)가 복잡한 작업을 자율적으로 수행하는 ‘에이전틱 AI(agentic AI)’ 시대로 진입하고 있는 것이다.

이러한 변화는 단순히 소프트웨어의 진화를 넘어 데이터센터의 하드웨어 설계와 컴퓨팅 자원 배분 전략을 근본적으로 재편하고 있다. 과거의 인프라가 대규모 병렬 연산을 위한 그래픽처리장치(GPU)와 고대역폭메모리(HBM)의 확장에 집중했다면, 새로운 사이클에서는 인공지능의 논리적 사고와 도구 사용을 조율하는 중앙처리장치(CPU), 그리고 방대한 맥락(context)과 상태(state) 정보를 효율적으로 관리하기 위한 메모리 계층 구조(memory hierarchy·프로세서 내부의 초고속 메모리-HBM –DRAM -SSD 등)가 핵심적인 병목 지점이자 혁신의 중심이 되고 있다.

AI 혁명, 세 가지 물결과 기술적 진화

인공지능 혁명은 하드웨어와 워크로드의 특성에 따라 세 단계로 구분할 수 있다. 각 단계는 서로 다른 기술적 과제를 해결하면서 성장해 왔는데, 이에 따라 핵심적인 부가가치를 창출하는 기업군도 변화해 왔다.

①AI 학습 시대와 엔비디아 독주

2022년 ChatGPT의 등장으로 촉발된 첫 번째 물결은 ‘모델 학습(training)’의 시기였다. 전 세계 빅테크 기업들은 더 똑똑한 인공지능을 만들기 위해 거대언어모델의 파라미터(매개변수) 규모를 확장하는 경쟁을 벌였다. 이 시기에는 방대한 양의 데이터를 동시에 처리할 수 있는 병렬 연산 성능이 무엇보다 중요했으며, 이를 구현할 수 있는 엔비디아의 GPU와 이를 생산하는 TSMC가 압도적인 수혜를 보았다.

챗봇 AI 구조. AMD

이 단계에서 인공지능은 주로 사용자의 질문에 답변을 생성하는 ‘챗봇’ 수준에 머물렀다. 기술적 핵심은 얼마나 많은 GPU를 확보해 모델을 빠르게 학습시키느냐에 있었으며, 엔비디아의 NVLink 기술과 TSMC의 CoWoS 패키징 기술(Chip on Wafer on Substrate·여러 개의 Logic SoC(여러 기능을 하나의 칩에 집적한 반도체)와 고대역폭메모리(HBM)를 하나의 물리적 패키지 안에 수평·수직으로 정밀하게 결합하는 2.5D/3D 첨단 패키징 기술)이 하드웨어 경쟁력의 척도가 됐다.

초기 챗GPT. ChatGPT

②AI 추론의 시대, 메모리의 부상

추론 효율성을 보여준 제미나이. Gemini

2024년부터 2025년까지 이어진 두 번째 물결은 ‘추론(inference)’ 시장의 확대로 정의된다. 학습된 모델이 실제 서비스에 대거 투입되면서 사용자의 요청에 실시간으로 응답하는 추론 효율성이 핵심 과제로 떠올랐는데, GPT와 제미나이, 그록, 클로드 등이 두 번째 AI 혁명을 선도했다. 이 시기에는 데이터의 이동 속도, 즉 메모리 대역폭이 연산 속도보다 더 큰 병목현상을 일으키는 ‘메모리 벽(memory wall)’ 문제가 대두됐다.

이에 따라 SK하이닉스, 삼성전자, 마이크론 등 HBM을 생산하는 기업들이 최대 수혜주로 부상했다. 특히 HBM4와 같은 차세대 메모리 채택이 급증하고, DDR5와 낸드(NAND) 플래시 전반에 걸쳐 공급 부족 사태가 발생하면서 메모리 업계는 유례없는 확장 사이클을 경험하고 있다.

③클로드가 촉발한 AI 에이전트 혁명

2026년부터 본격화된 세 번째 물결은 ‘인공지능 에이전트’의 시대다. 앤스로픽(Anthropic)의 ‘클로드 코드(Claude Code)’와 같은 혁신적인 에이전틱 서비스가 등장하면서, 인공지능은 단순히 대화하는 존재를 넘어 장시간 파일을 읽고, 코드를 수정하며, 외부 도구를 조작하는 ‘자율적 작업자’로 진화했다. 실시간 AI 에이전트가 CPU 위에서 동작하기 시작하면서, CPU와 메모리의 중요성이 빠르게 증가하고 있다.

에이전틱 AI 구조. AMD

생성형AI, AI에이전트, 에이전틱 AI 비교. Gemini

이 과정에서 인공지능의 작업 방식은 단발적인 답변 생성에서 ‘계획→ 실행→ 검증→ 재실행’으로 이어지는 반복적인 루프로 변화했다. 이러한 변화는 하드웨어 인프라에 두 가지 중대한 변화를 가져왔다. 그것은 첫째, GPU 연산보다 전체 시스템의 논리 제어와 자원 조율을 담당하는 CPU의 비중이 급격히 상승했다. 둘째, 방대한 작업 맥락(context)을 효율적으로 관리하기 위한 복잡한 메모리 계층 구조가 혁신의 중심이 됐다.

에이전틱 AI 시대에서 CPU는 단순한 관리자 역할을 넘어 인공지능 시스템의 핵심 구동축으로 재평가받고 있다. 과거 챗봇 위주의 환경에서는 CPU가 GPU 서버의 주변 기기로 취급됐으나, 이제는 모델의 지능적 사고와 도구 사용을 연결하는 중추적 역할을 수행한다.

인공지능 에이전트는 목표를 달성하기 위해 복잡한 단계를 설계하고, API를 호출하며, 파일 시스템을 오가고, 검증 루프를 돌리는 과정을 거친다. 이러한 논리 제어와 외부 도구 실행은 병렬 연산에 특화된 GPU보다 직렬 연산에 강한 CPU에 훨씬 최적화된 작업이다.

이러한 변화는 서버 설계의 구조적 변화로 이어지고 있다. AMD의 ‘베니스(Venice)’ 플랫폼은 컴퓨팅 트레이당 CPU 1개와 GPU 4개를 배치하고 있으며, 엔비디아의 ‘베라(Vera)’ 슈퍼칩은 CPU 1개와 루빈 GPU 2개를 결합한 구조를 취하고 있다. 과거에 하나의 CPU가 8개 이상의 GPU를 관리하던 시대에서, CPU와 GPU의 비율이 1: 1에 가까워지는 ‘균형 잡힌 아키텍처’로 이행하고 있는 것이다.

이처럼 에이전틱 AI로 인한 컴퓨팅 요구 사항의 증가는 서버 CPU 시장의 성장 전망치를 근본적으로 바꾸어놓았다. AMD는 서버 CPU의 전체 시장규모(TAM)가 연간 35% 이상 성장해 2030년에는 1200억 달러를 넘어설 것으로 예상하고 있다. 이는 이전의 성장 전망치인 18%를 두 배 가까이 상회하는 수치다.

이러한 성장 배경에는 에이전트들이 워크로드를 PC나 스마트폰과 같은 에지(edge) 디바이스(사용자 또는 사물과 가장 가까운 지점에서 데이터를 수집·처리하는 하드웨어로, 센서·스마트폰·CCTV·자율주행차·웨어러블 등 IoT 기기)로 밀어내 로컬에서 실행하려는 경향이 있다. 이미 앤스로픽의 ‘클로드 코드’는 이러한 방식을 사용 중이며, 이는 전 세계적인 PC 업그레이드 사이클을 촉발해 장기적으로 인텔(Intel)과 AMD 모두가 막대한 수혜를 볼 것으로 보인다.

메모리 계층 구조와 KV 캐시, 에이전틱 AI 핵심

에이전틱 AI가 직면한 가장 큰 기술적 장애물은 메모리 용량과 대역폭의 한계다. 에이전트 작업은 대화의 맥락이 길어질 뿐만 아니라, 여러 에이전트가 협업하며 공유하는 상태 정보의 양이 기하급수적으로 늘어나기 때문이다.

에이전트는 수만에서 수백만 토큰(AI가 답변을 생성할 때 글자, 단어, 문장을 처리하는 비용 단위)에 달하는 긴 문맥 창(context window)을 요구한다. 이 과정에서 가장 핵심적 자산은 ‘KV 캐시(Key-Value Cache)’다. KV 캐시는 모델이 이전에 처리한 토큰의 수학적 표현을 저장해 단계마다 중복 계산을 방지하는 역할을 한다. 하지만 문맥의 길이가 길어질수록 KV 캐시의 크기는 선형적으로 증가하며, 종종 모델 가중치 자체의 크기를 넘어서기도 한다. 고가의 HBM에만 의존하는 방식은 경제적으로 지속 불가능하기 때문에, 업계는 GPU 메모리(HBM), 시스템 RAM(DRAM), NVMe SSD, 그리고 스토리지를 아우르는 정교한 계층적 메모리 전략을 채택하고 있다.

따라서 에이전틱 AI 시대의 메모리 전략은 데이터를 필요에 따라 여러 층의 저장소에 나누어 담는 것이다. 우선 현재 연산에 즉시 필요한 데이터를 저장하는 초고속 계층이 액티브 레이어(Active Layer·HBM)이다. 현재 작업 중인 에이전트의 세션 정보를 저장하고, HBM보다 저렴하고 용량이 큰 웜 레이어(Warm Layer·DRAM), 그리고 일시 중단된 에이전트의 상태나 장기 기억을 저장하는 계층(Cold Layer·SSD)을 아울러야 한다.

이러한 계층 구조를 통해 시스템은 수천 명의 동시 사용자를 지원하면서도 효율적인 운영이 가능해진다. 이에 따라 HBM뿐만 아니라 DDR5, 초고속 SSD를 생산하는 삼성전자, SK하이닉스, 마이크론, 샌디스크 등이 핵심 수혜주로 꼽힌다.

이처럼 인공지능 서비스의 진화는 하드웨어 수요를 예측 불가능한 수준으로 폭증시키고 있다. 챗봇 수준에서 시작된 토큰 소모량은 에이전트와 로봇의 시대로 가면서 기하급수적으로 늘어난다.

휴머노이드 로봇, 피지컬 AI 주인공

그렇다면 휴머노이드 로봇 같은 피지컬 AI는 어떨까. 테슬라의 ‘옵티머스(Optimus)’와 피규어(Figure)의 ‘피규어 03’와 같은 휴머노이드 로봇은 인공지능의 최종 형태다. 이들은 시각 데이터를 실시간으로 감지하고 판단하는 ‘연속 추론’ 능력이 필수적이다.

휴머노이드 로봇 한 대에는 인지 성능을 위해 엔비디아 RTX급 GPU 모듈이 두 개 이상 탑재되기도 하며, 복잡한 관절 제어와 오케스트레이션(오케스트라에서 나온 말로, 악기들이 하나의 곡을 연주하는 것처럼 어우러지도록 조율하듯, 개별 기술을 하나의 프로세스로 움직이게 만드는 설계·운영 방식)을 위해 고성능 CPU가 중추적 역할을 한다. 이러한 로봇들이 가정과 공장에 배치되기 시작하면 반도체 수요는 지금과는 비교할 수 없는 수준으로 커질 것이다. 골드만삭스는 휴머노이드 로봇 시장이 2035년까지 380억 달러 규모로 성장할 것으로 내다보고 있다.

세 번째 AI 물결의 진정한 수혜자

인공지능 혁명은 이제 ‘지능의 생성’ 단계를 넘어 ‘지능의 실행’ 단계로 나아가고 있다. 지난 사이클의 주인공이 GPU였다면, 이번 세 번째 물결의 진정한 수혜자는 CPU 및 오케스트레이션 리더(인텔, AMD)가 될 가능성이 높다. 에이전틱 AI의 자율적 논리 실행을 담당하는 CPU의 중요성이 커지면서, 고성능 프로세서 시장의 성장이 가속화하기 때문이다. 여기에 차세대 메모리 및 스토리지 업체(SK하이닉스, 삼성전자, 마이크론, 샌디스크 등) 또한 고가의 HBM뿐만 아니라, 거대한 KV 캐시를 계층적으로 관리하기 위한 DDR5, 낸드플래시, 초고속 SSD의 수요가 동반 폭발하면서 수혜를 볼 것으로 예상된다. 단순 칩 제조사를 넘어 CPU와 GPU, 네트워킹을 완벽하게 결합한 ‘인공지능 공장(AI factory)’ 시스템을 공급하는 독보적인 플랫폼 기업으로 진화하는 엔비디아도 빼놓을 수 없다.

결국 미래의 인공지능 인프라는 거대한 단일 박스가 아니라 연산을 담당하는 GPU 랙, 논리와 조율을 담당하는 에이전틱 CPU 랙, 그리고 방대한 정보를 저장하는 메모리 패브릭이 고속 네트워크로 결합된 ‘분산형 인공지능 공장’의 형태를 띨 것이다. 이러한 패러다임의 전환을 이해하고 선제적으로 인프라를 구축하는 기업들이 다가올 에이전틱 AI 시대의 주도권을 쥐게 될 것이다.

윤혁진
● 1975년 출생
● 서울 성보고·서울대 임산공학과 졸업
● 서울대 경영학 석사(재무관리 전공)
● 현 SK증권 기업분석 1부 부서장