황仁勋 GTC 연설 전문: 추론 시대 도래, 2027년 수익 최소 1조 달러, 랍스터가 새로운 운영 체제이다
2026년 3월 16일, 엔비디아 GTC 2026 대회가 공식 개막하였고, 엔비디아 창립자 겸 CEO인 젠슨 황이 주제 발표를 하였습니다.

이 대회는 "AI 산업의 연례 성지 순례"로 여겨지며, 젠슨 황은 엔비디아가 "칩 회사"에서 "AI 인프라 및 공장 회사"로의 변화를 설명하였습니다. 시장에서 가장 우려되는 성과 지속성과 성장 공간 문제에 대해, 젠슨 황은 미래 성장을 이끄는 기본 상업 논리인 "토큰 공장 경제학"을 상세히 분석하였습니다.
성과 지침은 극도로 낙관적이며, "2027년까지 최소 1조 달러의 수요"
지난 2년 동안, 전 세계 AI 컴퓨팅 수요는 기하급수적으로 폭발하였습니다. 대형 모델이 "인식", "생성"에서 "추론" 및 "행동(작업 수행)"으로 진화함에 따라, 계산 능력의 소비량이 급격히 증가하였습니다. 시장에서 높은 관심을 받고 있는 주문 및 수익 한계에 대해, 젠슨 황은 매우 강력한 예측을 제시하였습니다.
젠슨 황은 발표 중에 다음과 같이 말했습니다:
작년 이맘때, 우리는 5천억 달러의 높은 확신 수요를 보았다고 말했습니다. 이는 Blackwell과 Rubin을 포함하여 2026년까지의 수요입니다. 지금, 바로 이 자리에서, 저는 2027년까지 최소 1조 달러의 수요를 보고 있습니다(at least $1 trillion).

젠슨 황의 1조 달러 예측은 한때 엔비디아 주가를 4.3% 이상 상승시키는 원인이 되었습니다.

뿐만 아니라, 그는 이 숫자에 대해 다음과 같이 덧붙였습니다:
이것이 합리적인가요? 이것이 제가 다음에 말씀드릴 내용입니다. 사실, 우리는 공급이 수요를 따라가지 못할 것입니다. 저는 실제 계산 수요가 이보다 훨씬 더 높을 것이라고 확신합니다.
젠슨 황은 오늘날의 엔비디아 시스템이 세계에서 "가장 저렴한 인프라"임을 입증했다고 강조했습니다. 엔비디아는 거의 모든 분야의 AI 모델을 실행할 수 있기 때문에, 이러한 범용성 덕분에 고객이 투자한 1조 달러가 충분히 활용되고 오랜 수명을 유지할 수 있습니다.
현재 엔비디아의 60%의 사업은 상위 5개 초대형 클라우드 서비스 제공업체에서 나오며, 나머지 40%는 주권 클라우드, 기업, 산업, 로봇 및 엣지 컴퓨팅 등 다양한 분야에 걸쳐 있습니다.
토큰 공장 경제학, 와트당 성능이 상업의 생명줄을 결정하다
1조 달러 수요의 합리성을 설명하기 위해, 젠슨 황은 전 세계 기업 CEO들에게 새로운 상업적 사고 방식을 제시하였습니다. 그는 미래의 데이터 센터는 더 이상 파일을 저장하는 창고가 아니라, 토큰(AI가 생성한 기본 단위)을 생산하는 "공장"이 될 것이라고 지적하였습니다.

젠슨 황은 강조하였습니다:
모든 데이터 센터, 모든 공장은 정의상 전력의 제약을 받습니다. 1GW(기가와트) 공장은 절대 2GW로 변하지 않습니다. 이는 물리학과 원자의 법칙입니다. 고정된 전력 하에서, 누가 와트당 토큰 처리량이 가장 높은지에 따라, 누가 생산 비용이 가장 낮은지가 결정됩니다.
젠슨 황은 미래의 AI 서비스를 네 가지 상업적 수준으로 나누었습니다:
- 무료 계층(높은 처리량, 낮은 속도)
- 중간 계층(~백만 토큰당 3달러)
- 고급 계층(~백만 토큰당 6달러)
- 고속 계층(~백만 토큰당 45달러)
- 초고속 계층(~백만 토큰당 150달러)
그는 모델이 점점 커지고, 문맥이 길어짐에 따라 AI가 더 똑똑해지겠지만, 토큰 생성 속도는 감소할 것이라고 말했습니다. 젠슨 황은 다음과 같이 밝혔습니다:
이 토큰 공장에서, 당신의 처리량과 토큰 생성 속도는 내년의 정확한 수익으로 직접 전환될 것입니다.
젠슨 황은 엔비디아의 아키텍처가 고객이 무료 계층에서 극도로 높은 처리량을 달성할 수 있도록 하며, 동시에 가장 가치 있는 추론 계층에서 성능을 놀랍게도 35배 향상시킬 수 있다고 강조하였습니다.

베라 루빈, 2년 만에 350배 가속, Groq가 초고속 추론을 채우다
이 물리적 한계의 제약 속에서, 엔비디아는 역사상 가장 복잡한 AI 컴퓨팅 시스템인 베라 루빈을 소개하였습니다. 젠슨 황은 다음과 같이 말했습니다:
과거에 호퍼를 언급할 때, 저는 칩 하나를 들어 보였습니다. 그것은 매우 귀여웠습니다. 그러나 베라 루빈을 언급할 때, 사람들은 전체 시스템을 생각합니다. 이 100% 액체 냉각 시스템에서는 전통적인 케이블을 완전히 제거하였으며, 과거에는 설치하는 데 이틀이 걸렸던 랙이 이제는 단 두 시간 만에 설치됩니다.
젠슨 황은 극단적인 엔드 투 엔드 하드웨어 및 소프트웨어 협동 설계를 통해, 베라 루빈이 동일한 1GW 데이터 센터에서 놀라운 데이터 도약을 창출했다고 밝혔습니다:
단 2년 만에, 우리는 토큰 생성 속도를 2,200만에서 7억으로 향상시켜 350배의 성장을 이루었습니다. 무어의 법칙은 같은 기간 동안 약 1.5배의 향상만을 가져올 수 있었습니다.
초고속 추론(예: 1000 토큰/초) 조건에서의 대역폭 병목 현상을 해결하기 위해, 엔비디아는 인수한 Groq의 최종 솔루션을 제시하였습니다: 비대칭 분리 추론. 젠슨 황은 설명하였습니다:
이 두 프로세서는 특징이 완전히 다릅니다. Groq 칩은 500MB의 SRAM을 가지고 있으며, Rubin 칩은 288GB의 메모리를 가지고 있습니다.

젠슨 황은 엔비디아가 다이나모 소프트웨어 시스템을 통해 대량의 계산과 비디오 메모리가 필요한 "사전 채우기(Pre-fill)" 단계를 베라 루빈에 맡기고, 지연에 극도로 민감한 "디코딩" 단계를 Groq에 맡겼다고 밝혔습니다. 젠슨 황은 기업의 계산 능력 구성에 대한 제안을 하였습니다:
만약 당신의 작업이 주로 높은 처리량을 요구한다면, 100% 베라 루빈을 사용하십시오. 만약 많은 고부가가치 프로그래밍 수준의 토큰 생성 수요가 있다면, 데이터 센터 규모의 25%를 Groq에 할당하십시오.
삼성에서 위탁 생산한 Groq LP30 칩은 이미 양산에 들어갔으며, 3분기 출하가 예상됩니다. 첫 번째 베라 루빈 랙은 마이크로소프트 Azure에서 운영되고 있습니다.
또한, 광 상호 연결 기술에 대해, 젠슨 황은 세계 최초의 양산형 공동 패키징 광학(CPO) 스위치인 스펙트럼 X를 소개하며 "구리에서 광으로"의 경로 논쟁에 대한 시장의 우려를 잠재웠습니다:
우리는 더 많은 구리 케이블 생산 능력, 더 많은 광 칩 생산 능력, 더 많은 CPO 생산 능력이 필요합니다.
에이전트가 전통적인 SaaS를 종식시키고, "연봉 + 토큰"이 실리콘 밸리의 표준이 되다
하드웨어 장벽 외에도, 젠슨 황은 AI 소프트웨어와 생태계의 혁명, 특히 에이전트(지능형 시스템)의 폭발에 많은 분량을 할애하였습니다.
그는 오픈 소스 프로젝트 OpenClaw를 "인류 역사상 가장 인기 있는 오픈 소스 프로젝트"라고 묘사하며, 단 몇 주 만에 리눅스가 지난 30년 동안 이룬 성과를 초월했다고 언급하였습니다. 젠슨 황은 OpenClaw가 본질적으로 에이전트 컴퓨터의 "운영 체제"라고 단언하였습니다.
젠슨 황은 다음과 같이 주장하였습니다:
모든 SaaS(서비스로서의 소프트웨어) 회사는 AaaS(서비스로서의 에이전트) 회사로 변모할 것입니다. 의심할 여지 없이, 이러한 민감한 데이터에 접근하고 코드를 실행할 수 있는 지능형 시스템이 안전하게 배치되기 위해, 엔비디아는 기업 수준의 NeMo Claw 참조 설계를 출시하였으며, 정책 엔진과 프라이버시 라우터를 추가하였습니다.
일반 직장인에게도 이 변화는 가까운 미래에 다가오고 있습니다. 젠슨 황은 미래의 직장 새로운 형태를 그렸습니다:
미래에는 우리 회사의 모든 엔지니어가 연간 토큰 예산을 가져야 합니다. 그들의 기본 연봉은 수십만 달러일 수 있으며, 저는 그 금액의 약 절반을 토큰 한도로 추가하여 그들이 10배의 효율성을 달성할 수 있도록 할 것입니다. 이것은 이미 실리콘 밸리의 새로운 채용 카드가 되었습니다: 당신의 오퍼에는 얼마나 많은 토큰이 포함되어 있습니까?
발표 마지막에, 젠슨 황은 차세대 컴퓨팅 아키텍처인 파인만(Feynman)을 "스포일러"하며, 이는 구리선과 CPO의 공동 수평 확장을 최초로 실현할 것이라고 밝혔습니다. 더욱 흥미로운 것은, 엔비디아가 우주에 배치될 데이터 센터 컴퓨터 "베라 루빈 스페이스-1"을 개발하고 있으며, AI 컴퓨팅 파워가 지구 너머로 확장될 수 있는 상상 공간을 완전히 열고 있다는 것입니다.
젠슨 황 GTC 2026 발표 전문, 전문 번역은 다음과 같습니다(AI 도구 보조):
사회자: 엔비디아 창립자 겸 CEO인 젠슨 황을 무대에 초대합니다.
젠슨 황, 창립자 겸 CEO:
GTC에 오신 것을 환영합니다. 여러분에게 상기시키고 싶은 것은, 이것이 기술 대회라는 것입니다. 이렇게 많은 사람들이 이른 아침부터 줄을 서서 입장하는 모습을 보니 매우 기쁩니다.
GTC에서는 세 가지 주요 주제에 집중할 것입니다: 기술, 플랫폼 및 생태계. 엔비디아는 현재 세 가지 플랫폼을 보유하고 있습니다: CUDA-X 플랫폼, 시스템 플랫폼, 그리고 우리가 최근에 출시한 AI 공장 플랫폼입니다.
정식 시작에 앞서, 저희의 사전 행사 사회자인 Conviction의 Sarah Guo, 세쿼이아 캐피탈의 Alfred Lin(엔비디아의 첫 번째 벤처 투자자), 그리고 엔비디아의 첫 번째 주요 기관 투자자 Gavin Baker에게 감사드립니다. 이 세 분은 기술에 대한 깊은 통찰력을 가지고 있으며, 전체 기술 생태계에서 광범위한 영향력을 가지고 있습니다. 물론, 오늘 제가 직접 초대한 모든 귀빈들에게도 감사드립니다. 이 올스타 팀에 감사드립니다.
오늘 참석한 모든 기업에도 감사드립니다. 엔비디아는 플랫폼 회사이며, 기술, 플랫폼 및 풍부한 생태계를 보유하고 있습니다. 오늘 참석한 기업들은 100조 달러 산업의 거의 모든 참여자를 대표하며, 총 450개 회사가 이번 행사에 후원하였습니다. 깊은 감사의 말씀을 드립니다.
이번 대회에서는 총 1,000개의 기술 포럼과 2,000명의 발표자가 있으며, 인공지능 "5층 케이크" 아키텍처의 모든 계층을 다룰 것입니다------토지, 전력 및 데이터 센터와 같은 인프라에서부터 칩, 플랫폼, 모델, 그리고 궁극적으로 전체 산업을 비약적으로 발전시키는 다양한 응용 프로그램까지.
CUDA: 20년의 기술 축적
모든 시작은 여기에서 이루어졌습니다. 올해는 CUDA가 탄생한 지 20주년입니다.
20년 동안, 우리는 이 아키텍처의 연구 개발에 전념해 왔습니다. CUDA는 혁신적인 발명입니다------SIMT(단일 명령 다중 스레드) 기술은 개발자가 스칼라 코드를 작성하고 이를 다중 스레드 응용 프로그램으로 확장할 수 있게 하며, 그 프로그래밍 난이도는 이전의 SIMD 아키텍처보다 훨씬 낮습니다. 우리는 최근에 Tiles 기능을 추가하여 개발자가 텐서 코어(Tensor Core)를 더 쉽게 프로그래밍할 수 있도록 하였으며, 오늘날 인공지능이 의존하는 다양한 수학적 연산 구조를 지원합니다. 현재 CUDA는 수천 가지 도구, 컴파일러, 프레임워크 및 라이브러리를 보유하고 있으며, 오픈 소스 커뮤니티에는 수십만 개의 공개 프로젝트가 존재하고, 모든 기술 생태계에 깊이 통합되어 있습니다.
이 차트는 엔비디아의 100% 전략 논리를 드러내며, 저는 처음부터 이 슬라이드를 이야기해 왔습니다. 가장 실현하기 어려운 요소이자 핵심 요소는 차트 하단의 "설치량"입니다. 20년의 세월을 거쳐, 우리는 전 세계적으로 수억 개의 CUDA를 실행하는 GPU와 컴퓨팅 시스템을 축적하였습니다.
우리의 GPU는 모든 클라우드 플랫폼을 아우르며, 거의 모든 컴퓨터 제조업체와 산업에 서비스를 제공합니다. CUDA의 방대한 설치량은 이 플라이휠이 지속적으로 가속화되는 근본적인 이유입니다. 설치량은 개발자를 끌어들이고, 개발자는 새로운 알고리즘을 창출하고 돌파구를 마련하며, 돌파구는 새로운 시장을 창출하고, 새로운 시장은 새로운 생태계를 형성하여 더 많은 기업을 끌어들이고, 결과적으로 설치량을 확대합니다------이 플라이휠은 지속적으로 가속화되고 있습니다.
엔비디아 라이브러리의 다운로드 수는 놀라운 속도로 증가하고 있으며, 규모가 크고 증가 속도가 계속해서 높아지고 있습니다. 이 플라이휠은 우리의 컴퓨팅 플랫폼이 방대한 응용 프로그램과 끊임없는 새로운 돌파구를 지원할 수 있도록 합니다.
더 중요한 것은, 이 인프라에 매우 긴 사용 수명을 부여한다는 것입니다. 이유는 명백합니다: NVIDIA CUDA에서 실행할 수 있는 응용 프로그램은 매우 다양하며, AI 생애 주기의 모든 단계, 다양한 데이터 처리 플랫폼 및 다양한 과학 원리 해결기를 포함합니다. 따라서 엔비디아 GPU가 설치되면, 그 실제 사용 가치는 매우 높습니다. 이것이 우리가 6년 전에 출시한 앰페어 아키텍처 GPU가 클라우드에서 가격이 오히려 상승하고 있는 이유입니다.
이 모든 것의 근본적인 이유는: 설치량이 방대하고, 플라이휠이 강력하며, 개발자 생태계가 광범위하다는 것입니다. 이러한 요소들이 함께 작용하고, 우리가 소프트웨어를 지속적으로 업데이트함에 따라, 계산 비용은 지속적으로 감소할 것입니다. 가속 계산은 응용 프로그램 성능을 크게 향상시키는 동시에, 우리가 장기적으로 소프트웨어를 유지하고 반복함에 따라, 사용자는 초기 성능 도약을 얻을 뿐만 아니라 계산 비용의 감소를 지속적으로 누릴 수 있습니다. 우리는 전 세계의 모든 GPU에 대해 장기 지원을 제공할 준비가 되어 있습니다. 왜냐하면 이들은 아키텍처적으로 완전히 호환되기 때문입니다.
우리가 이렇게 하기로 한 이유는 설치량이 너무 방대하기 때문입니다------새로운 최적화를 한 번 발표할 때마다 수백만 명의 사용자에게 혜택을 줄 수 있습니다. 이러한 동적 조합은 엔비디아 아키텍처가 지속적으로 범위를 확대하고, 스스로 성장하는 동시에, 계산 비용을 지속적으로 낮추어 새로운 성장을 촉진하는 데 기여합니다. CUDA는 이 모든 것의 핵심입니다.
GeForce에서 CUDA까지: 25년의 진화의 길
그리고 우리는 CUDA와의 여정을 사실상 25년 전에 시작하였습니다.
GeForce------여기 계신 많은 분들이 GeForce와 함께 성장하셨을 것입니다. GeForce는 엔비디아의 가장 성공적인 마케팅 프로젝트입니다. 우리는 여러분이 제품을 구매할 수 없었던 시절부터 미래의 고객을 양성하기 시작했습니다------여러분의 부모님이 대신 엔비디아의 초기 사용자로서 우리 제품을 매년 구매하였고, 어느 날 여러분이 훌륭한 컴퓨터 과학자가 되어 진정한 고객과 개발자가 되었습니다.
이것이 25년 전 GeForce가 세운 기반입니다. 25년 전, 우리는 프로그래머블 셰이더를 발명하였습니다------이는 가속기가 프로그래머블하게 만드는 명백하지만 의미 있는 발명이며, 세계 최초의 프로그래머블 가속기, 즉 픽셀 셰이더입니다. 5년 후, 우리는 CUDA를 창조하였습니다------이는 우리가 지금까지 한 가장 중요한 투자 중 하나입니다. 당시 회사의 재정이 제한적이었지만, 우리는 대부분의 이익을 이 프로젝트에 걸고, CUDA를 GeForce에서 모든 컴퓨터로 확장하는 데 전념하였습니다. 우리가 이렇게 확신을 가질 수 있었던 이유는 그 잠재력을 믿었기 때문입니다. 비록 초기에는 어려움이 있었지만, 회사는 이 신념을 13세대, 20년 동안 지켰고, 이제 CUDA는 어디에나 있습니다.
픽셀 셰이더가 GeForce 혁명을 이끌었습니다. 약 8년 전, 우리는 RTX를 출시하였습니다------현대 컴퓨터 그래픽 시대를 위한 아키텍처의 전면적인 혁신을 이루었습니다. GeForce는 CUDA를 전 세계에 전파하였고, 그 덕분에 Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton, Andrew Ng 등 많은 학자들이 GPU가 심층 학습을 가속화하는 도구가 될 수 있음을 발견하였고, 이는 10년 전 인공지능의 대폭발을 촉발하였습니다.
10년 전, 우리는 프로그래머블 셰이더와 두 가지 새로운 개념을 결합하기로 결정하였습니다: 하나는 하드웨어 레이 트레이싱(Ray Tracing)으로, 기술적으로 매우 도전적입니다; 두 번째는 당시 매우 선견지명이 있는 아이디어로------약 10년 전, 우리는 AI가 컴퓨터 그래픽을 완전히 혁신할 것이라는 것을 예견하였습니다. GeForce가 AI를 전 세계에 전파한 것처럼, AI는 이제 다시 컴퓨터 그래픽 구현 방식을 재형성할 것입니다.
오늘, 저는 여러분에게 미래를 보여드리겠습니다. 이것은 우리의 차세대 그래픽 기술로, 우리는 이를 신경 렌더링(Neural Rendering)이라고 부릅니다------3D 그래픽과 인공지능의 깊은 융합입니다. 이것이 DLSS 5입니다, 보십시오.
신경 렌더링: 구조화된 데이터와 생성적 AI의 융합
이것은 놀랍지 않습니까? 컴퓨터 그래픽이 이렇게 생기를 얻었습니다.
우리는 무엇을 했습니까? 우리는 제어 가능한 3D 그래픽(가상 세계의 실제 기반)을 구조화된 데이터와 결합하고, 생성적 AI 및 확률 계산을 통합하였습니다. 하나는 완전히 결정적이며, 다른 하나는 확률적이지만 매우 사실적입니다------우리는 이 두 가지 개념을 통합하여 구조화된 데이터를 통해 정밀하게 제어할 수 있도록 하면서 실시간으로 생성합니다. 최종적으로, 콘텐츠는 아름답고 놀라울 뿐만 아니라 완전히 제어 가능합니다.
구조화된 정보와 생성적 AI의 융합 개념은 여러 산업에서 지속적으로 재현될 것입니다. 구조화된 데이터는 신뢰할 수 있는 AI의 초석입니다.
구조화된 데이터와 비구조화된 데이터의 가속 플랫폼
이제 기술 아키텍처 다이어그램을 보여드리겠습니다.
구조화된 데이터------여러분이 잘 아는 SQL, Spark, Pandas, Velox, 그리고 Snowflake, Databricks, Amazon EMR, Azure Fabric, Google BigQuery와 같은 중요한 플랫폼은 모두 데이터 프레임(Data Frame)을 처리하고 있습니다. 이러한 데이터 프레임은 거대한 전자 스프레드시트와 같으며, 상업 세계의 모든 정보를 담고 있으며, 기업 계산의 기본 사실(Ground Truth)입니다.
AI 시대에는 AI가 구조화된 데이터를 사용하고 이를 극도로 가속화할 수 있어야 합니다. 과거에는 구조화된 데이터 처리를 가속화하여 기업이 더 효율적으로 운영되도록 하였습니다. 그러나 미래에는 AI가 인간보다 훨씬 빠른 속도로 이러한 데이터 구조를 사용할 것이며, AI 지능체도 구조화된 데이터베이스를 대량으로 호출할 것입니다.
비구조화된 데이터 측면에서는, 벡터 데이터베이스, PDF, 비디오, 오디오 등이 세계의 대부분 데이터 형태를 구성하고 있습니다------매년 생성되는 데이터의 약 90%가 비구조화된 데이터입니다. 과거에는 이러한 데이터가 거의 완전히 활용되지 못했습니다: 우리는 그것들을 읽고 파일 시스템에 저장하는 것 외에는 아무것도 하지 못했습니다. 우리는 쿼리할 수 없고, 검색하기도 어려웠습니다. 그 이유는 비구조화된 데이터가 간단한 인덱스 방식을 결여하고 있어 그 의미와 문맥을 이해해야 했기 때문입니다. 그러나 이제 AI는 이를 수행할 수 있습니다------다중 모달 인식 및 이해 기술을 통해, AI는 PDF 문서를 읽고 그 의미를 이해하며, 이를 쿼리 가능한 더 큰 구조에 통합할 수 있습니다.
엔비디아는 이를 위해 두 개의 기본 라이브러리를 만들었습니다:
cuDF: 데이터 프레임, 구조화된 데이터의 가속 처리에 사용됩니다.
cuVS: 벡터 저장소, 의미 데이터 및 비구조화 AI 데이터의 처리에 사용됩니다.
이 두 플랫폼은 미래의 가장 중요한 기본 플랫폼 중 하나가 될 것입니다.
오늘, 우리는 여러 기업과 협력 관계를 체결했다고 발표합니다. IBM------SQL 언어의 발명자는 cuDF를 사용하여 WatsonX Data 플랫폼을 가속화할 것입니다. Dell은 우리와 협력하여 Dell AI 데이터 플랫폼을 구축하였으며, cuDF와 cuVS를 통합하고 NTT Data의 실제 프로젝트에서 성능을 크게 향상시켰습니다. Google Cloud 측에서는, 우리는 이제 Vertex AI뿐만 아니라 BigQuery도 가속화하고 있으며, Snapchat과 협력하여 계산 비용을 거의 80% 낮추었습니다.
가속 계산이 가져오는 이점은 세 가지입니다: 속도, 규모, 비용. 이는 무어의 법칙의 논리와 일맥상통합니다------가속 계산을 통해 성능 비약을 이루고, 알고리즘을 지속적으로 최적화하여 모든 사람이 지속적으로 감소하는 계산 비용을 누릴 수 있도록 합니다.
엔비디아는 가속 계산 플랫폼을 구축하였으며, 그 위에 여러 라이브러리: RTX, cuDF, cuVS 등을 통합하였습니다. 이러한 라이브러리는 전 세계 클라우드 서비스 및 OEM 시스템에 통합되어 전 세계 사용자에게 도달합니다.
주요 클라우드 서비스 제공업체와의 깊은 협력
주요 클라우드 서비스 제공업체와의 협력
Google Cloud: 우리는 Vertex AI와 BigQuery를 가속화하며, JAX/XLA와 깊이 통합되어 있으며, PyTorch에서 뛰어난 성능을 발휘합니다------엔비디아는 전 세계에서 PyTorch와 JAX/XLA 모두에서 뛰어난 성능을 발휘하는 유일한 가속기입니다. 우리는 Base10, CrowdStrike, Puma, Salesforce 등의 고객을 Google Cloud 생태계로 유치하였습니다.
AWS: 우리는 EMR, SageMaker 및 Bedrock을 가속화하며, AWS와 깊이 통합되어 있습니다. 올해 특히 흥미로운 점은, 우리는 OpenAI를 AWS로 유치할 것이며, 이는 AWS 클라우드 컴퓨팅 소비의 성장을 크게 촉진하고 OpenAI의 지역 배치 및 계산 규모를 확장하는 데 도움이 될 것입니다.
Microsoft Azure: 엔비디아의 100 PFLOPS 슈퍼컴퓨터는 우리가 구축한 첫 번째 슈퍼컴퓨터이며, Azure에 배치된 첫 번째 슈퍼컴퓨터로, OpenAI와의 협력의 중요한 기초를 마련하였습니다. 우리는 Azure 클라우드 서비스와 AI Foundry를 가속화하며, Azure 지역 확장을 공동으로 추진하고, Bing 검색에서 깊이 협력하고 있습니다. 특히, 우리의 기밀 계산(Confidential Computing) 능력------운영자조차도 사용자 데이터와 모델을 볼 수 없도록 보장하는------엔비디아 GPU는 전 세계에서 기밀 계산을 지원하는 최초의 GPU 중 하나로, OpenAI와 Anthropic 모델이 전 세계 각 지역의 클라우드 환경에서 기밀 배치될 수 있도록 지원합니다. 예를 들어, 우리는 Synopsys의 모든 EDA 및 CAD 워크플로우를 가속화하고 Microsoft Azure에 배치하였습니다.
Oracle: 우리는 Oracle의 첫 번째 AI 고객이며, AI 클라우드 개념을 Oracle에 처음 설명할 수 있어 자랑스럽습니다. 그 후 그들은 급속히 발전하였고, 우리는 Cohere, Fireworks, OpenAI 등 많은 파트너를 그들에게 소개하였습니다.
CoreWeave: 세계 최초의 AI 네이티브 클라우드로, GPU 호스팅 및 AI 클라우드 서비스에 최적화되어 있으며, 뛰어난 고객군을 보유하고 있으며, 성장세가 강력합니다.
Palantir + Dell: 세 회사가 협력하여 새로운 AI 플랫폼을 구축하였으며, Palantir의 본체론 플랫폼(Ontology Platform)과 AI 플랫폼을 기반으로 하여, 모든 국가, 모든 공백 격리 환경에서 완전히 로컬화된 AI를 배치할 수 있습니다------데이터 처리(벡터화 또는 구조화)에서 AI의 완전한 가속 계산 스택에 이르기까지, 모든 것을 포함합니다.
엔비디아는 전 세계 클라우드 서비스 제공업체와 이러한 특별한 협력 관계를 구축하였습니다------우리는 고객을 클라우드로 유도하며, 이는 상호 이익이 되는 생태계입니다.
수직 통합, 수평 개방: 엔비디아의 핵심 전략
엔비디아는 세계 최초의 수직 통합 및 수평 개방 회사입니다.
이 모델의 필요성은 매우 간단합니다: 가속 계산은 칩 문제도 아니고, 시스템 문제도 아닙니다. 그 완전한 표현은 응용 가속입니다. CPU는 컴퓨터 전체를 더 빠르게 작동하게 할 수 있지만, 이 길은 병목에 도달했습니다. 미래에는 응용 또는 분야 특정 가속을 통해서만 성능 비약과 비용 절감을 지속적으로 가져올 수 있습니다.
이것이 바로 엔비디아가 하나하나의 라이브러리, 하나하나의 분야, 하나하나의 수직 산업에 깊이 파고들어야 하는 이유입니다. 우리는 수직 통합된 컴퓨팅 회사이며, 다른 길은 없습니다. 우리는 응용 프로그램을 이해하고, 분야를 이해하며, 알고리즘을 깊이 이해하고, 이를 모든 장면에 배치할 수 있어야 합니다------데이터 센터, 클라우드, 로컬, 엣지 및 로봇 시스템에 이르기까지.
동시에, 엔비디아는 수평적으로 개방하여, 기술을 모든 파트너의 플랫폼에 통합하여 전 세계가 가속 계산의 혜택을 누릴 수 있도록 합니다.
이번 GTC의 참석자 구조는 이를 충분히 반영하고 있습니다. 이번 참석자 중 금융 서비스 산업의 비율이 가장 높습니다------우리가 원하는 것은 개발자이지, 트레이더가 아닙니다. 우리의 생태계는 상류 및 하류 공급망을 포괄합니다. 50년, 70년 또는 150년 된 기업이든, 지난해는 역사상 최고의 해를 맞이하였습니다. 우리는 매우, 매우 중요한 일의 시작점에 있습니다.
CUDA-X: 각 산업의 가속 계산 엔진
각 수직 분야에서, 엔비디아는 깊이 배치하였습니다:
자율주행: 광범위한 범위와 깊은 영향력
금융 서비스: 양적 투자가 인공지능 기반의 심층 학습으로 전환되고 있으며, "Transformer 순간"을 맞이하고 있습니다.
의료 건강: AI 보조 약물 발견, AI 지능형 지원 진단, 의료 고객 서비스 등 방향에서 자신의 "ChatGPT 순간"을 맞이하고 있습니다.
산업: 전 세계에서 가장 큰 건설 물결이 시작되고 있으며, AI 공장, 칩 공장, 데이터 센터 공장이 잇따라 설립되고 있습니다.
엔터테인먼트 및 게임: 실시간 AI 플랫폼이 번역, 라이브 방송, 게임 상호작용 및 스마트 쇼핑 대행을 지원합니다.
로봇: 10년 이상 깊이 파고들며, 세 가지 컴퓨터 아키텍처(훈련 컴퓨터, 시뮬레이션 컴퓨터, 탑재 컴퓨터)가 완비되어 있으며, 이번 전시회에서는 110종의 로봇이 등장하였습니다.
통신: 약 2조 달러 규모의 산업으로, 기지국은 단일 통신 기능에서 AI 인프라 플랫폼으로 발전할 것이며, 관련 플랫폼은 Aerial로, 노키아, T-Mobile 등 기업과 깊이 협력하고 있습니다.
이 모든 분야의 핵심은 우리의 CUDA-X 라이브러리입니다------이는 엔비디아가 알고리즘 회사로서의 근본입니다. 이러한 라이브러리는 회사의 가장 핵심 자산으로, 각 산업에서 실제 가치를 발휘할 수 있도록 합니다.
그 중 가장 중요한 라이브러리 중 하나는 cuDNN(CUDA 심층 신경망 라이브러리)으로, 인공지능을 완전히 혁신하였고 현대 AI의 대폭발을 촉발하였습니다.
( CUDA-X 시연 비디오 재생)
여러분이 방금 보신 모든 것은 시뮬레이션입니다------물리 원리에 기반한 해결기, AI 에이전트 물리 모델, 그리고 물리 AI 로봇 모델입니다. 모든 것이 시뮬레이션이며, 수동 애니메이션이나 관절 바인딩이 없습니다. 이것이 바로 엔비디아의 핵심 능력입니다: 알고리즘에 대한 깊은 이해와 계산 플랫폼의 유기적 결합을 통해 이러한 기회를 열어가는 것입니다.
AI 네이티브 기업과 새로운 계산 시대
여러분은 방금 월마트, 로레알, JP모건, 로슈, 도요타 등 오늘날 사회를 정의하는 산업 거대 기업들을 보았고, 여러분이 들어본 적이 없는 많은 기업들도 보았습니다------우리는 이를 AI 네이티브 기업이라고 부릅니다. 이 목록은 매우 방대하며, OpenAI, Anthropic 및 다양한 수직 분야의 신생 기업들이 포함되어 있습니다.
지난 2년 동안, 이 산업은 놀라운 비약을 경험하였습니다. 벤처 자본이 신생 기업에 유입된 자금 규모는 1,500억 달러에 달하며, 이는 인류 역사상 최고입니다. 더 중요한 것은, 단일 투자 규모가 처음으로 수백만 달러에서 수억 달러, 심지어 수십억 달러로 도약하였습니다. 이유는 단 하나입니다: 이는 역사상 처음으로, 이러한 모든 회사가 대량의 계산 자원과 대량의 토큰을 필요로 하기 때문입니다. 이 산업은 토큰을 생성하고, 생성된 토큰에 가치를 더하고 있습니다.
PC 혁명, 인터넷 혁명, 모바일 클라우드 혁명이 각각 시대를 초월한 기업들을 탄생시킨 것처럼, 이번 세대의 계산 플랫폼 혁명 또한 영향력 있는 기업들을 탄생시켜 미래 세계의 중요한 힘이 될 것입니다.
이 모든 것을 추진하는 세 가지 역사적 돌파구
지난 2년 동안 도대체 무슨 일이 있었던 것일까요? 세 가지 큰 사건이 있었습니다.
첫째: ChatGPT, 생성적 AI 시대의 시작(2022년 말에서 2023년)
그것은 단순히 인식하고 이해하는 것뿐만 아니라, 독특한 콘텐츠를 생성할 수 있습니다. 저는 생성적 AI와 컴퓨터 그래픽의 융합을 보여주었습니다. 생성적 AI는 근본적으로 계산 방식을 변화시켰습니다------계산이 검색 방식에서 생성 방식으로 전환되었으며, 이는 컴퓨터 아키텍처, 배치 방식 및 전체 의미에 깊은 영향을 미칩니다.
둘째: 추론 AI(Reasoning AI), o1을 대표로
추론 능력은 AI가 스스로 반성하고, 계획하고, 문제를 분해할 수 있게 합니다------AI가 직접 이해할 수 없는 문제를 처리 가능한 단계로 분해합니다. o1은 생성적 AI를 신뢰할 수 있게 만들어, 실제 정보를 기반으로 추론할 수 있게 합니다. 이를 위해, 입력 문맥의 토큰 수와 사고에 사용되는 출력 토큰 수가 대폭 증가하였으며, 계산량도 상당히 증가하였습니다.
셋째: Claude Code, 첫 번째 지능형 모델
그것은 파일을 읽고, 코드를 작성하고, 컴파일하고, 테스트하고, 평가하고, 반복할 수 있습니다. Claude Code는 소프트웨어 공학을 완전히 혁신하였습니다------엔비디아의 100% 엔지니어가 Claude Code, Codex 및 Cursor 중 하나 이상을 사용하고 있으며, AI의 도움 없이 소프트웨어 엔지니어는 없습니다.
이는 새로운 전환점입니다------이제 여러분은 AI에게 "무엇인가, 어디에 있는가, 어떻게 하는가"를 묻는 것이 아니라, 그것에게 "생성하고, 실행하고, 구축하라"고 하여, 도구를 능동적으로 사용하고, 파일을 읽고, 문제를 분해하고, 행동에 옮기게 합니다. AI는 인식에서 생성, 추론으로 나아가 이제 실제 작업을 수행할 수 있게 되었습니다.
지난 2년 동안, 추론에 필요한 계산량은 약 10,000배 증가하였고, 사용량은 약 100배 증가하였습니다. 저는 항상 지난 2년 동안 계산 수요가 100만 배 증가했다고 생각해 왔습니다------이는 모든 사람의 공통된 감정이며, OpenAI의 감정이기도 하고, Anthropic의 감정이기도 합니다. 더 많은 계산 능력을 확보할 수 있다면, 더 많은 토큰을 생성할 수 있고, 수익이 증가하며, AI는 더 똑똑해질 것입니다. 추론의 전환점은 이미 도래하였습니다.
1조 달러의 AI 인프라 시대
작년 이맘때, 저는 여기에서 Blackwell과 Rubin에 대한 수요와 구매 주문에 대해 높은 확신을 가지고 있다고 말씀드렸습니다. 규모는 약 5,000억 달러입니다. 오늘, GTC 1년 후, 저는 여기에서 여러분에게 말씀드립니다: 2027년을 전망할 때, 제가 보는 숫자는 최소 1조 달러입니다. 그리고 저는 실제 계산 수요가 이보다 훨씬 더 높을 것이라고 확신합니다.
2025: 엔비디아의 추론의 해
2025년은 엔비디아의 추론의 해(Year of Inference)입니다. 우리는 훈련과 후 훈련을 넘어 AI 생애 주기의 모든 단계에서 탁월함을 유지하고, 이미 투자한 인프라가 지속적으로 효율적으로 운영될 수 있도록 하며, 유효 사용 수명이 길어질수록 단위 비용이 낮아지도록 할 것입니다.
동시에, Anthropic과 Meta는 공식적으로 NVIDIA 플랫폼에 합류하였으며, 이는 전 세계 AI 컴퓨팅 수요의 3분의 1을 대표합니다. 오픈 소스 모델은 최전선 수준에 근접하고 있으며, 어디에나 존재합니다.
엔비디아는 현재 전 세계에서 모든 AI 분야------언어, 생물학, 컴퓨터 그래픽, 컴퓨터 비전, 음성, 단백질 및 화학, 로봇 등------모든 AI 모델을 실행할 수 있는 유일한 플랫폼입니다. 엣지든 클라우드든, 어떤 언어든 상관없이. 엔비디아 아키텍처는 이러한 모든 장면에 대해 범용성을 가지고 있으며, 이는 우리가 가장 저렴하고 신뢰할 수 있는 플랫폼이 되는 이유입니다.
현재 엔비디아의 60%의 사업은 전 세계 상위 5개 초대형 클라우드 서비스 제공업체에서 나오며, 나머지 40%는 지역 클라우드, 주권 클라우드, 기업, 산업, 로봇, 엣지 컴퓨팅 등 다양한 분야에 걸쳐 있습니다. AI의 범위 자체가 그 강인함을 나타내는 것입니다------이는 분명히 새로운 계산 플랫폼 혁명입니다.
그레이스 블랙웰과 NVLink 72: 대담한 아키텍처 혁신
호퍼 아키텍처가 절정에 달했을 때, 우리는 시스템을 완전히 재구성하기로 결정하였고, NVLink를 8배에서 NVLink 72로 확장하여 계산 시스템을 전면적으로 분해하고 재구성하였습니다. 그레이스 블랙웰 NVLink 72는 모든 파트너에게 큰 기술적 베팅이며, 이를 위해 모든 분들께 진심으로 감사드립니다.
동시에, 우리는 NVFP4를 출시하였습니다------단순한 FP4가 아니라, 완전히 새로운 유형의 텐서 코어 및 계산 유닛입니다. 우리는 NVFP4가 정밀도 손실 없이 추론을 실현하면서도 엄청난 성능 향상과 에너지 효율 향상을 가져올 수 있음을 입증하였으며, 훈련에도 동일하게 적용됩니다. 또한, 다이나모와 텐서RT-LLM 등 일련의 새로운 알고리즘이 잇따라 등장하였으며, 우리는 최적화 커널을 위해 수십억 달러를 투자하여 DGX Cloud라는 슈퍼컴퓨터를 건설하였습니다.
결과적으로, 우리의 추론 성능은 주목할 만합니다. Semi Analysis의 데이터------이는 지금까지 가장 포괄적인 AI 추론 성능 평가------는 엔비디아가 와트당 토큰 수와 각 토큰 비용 두 가지 차원에서 모두 압도적으로 앞서 있다는 것을 보여줍니다. 원래 무어의 법칙은 H200에 1.5배의 성능 향상을 가져올 수 있었지만, 우리는 35배를 달성하였습니다. Semi Analysis의 Dylan Patel은 심지어 "젠슨 황이 보수적이었다. 실제로는 50배다."라고 말했습니다. 그는 맞습니다.
저는 그의 말을 인용합니다: "젠슨은 보수적으로 보고했다."
엔비디아의 각 토큰 비용은 전 세계에서 가장 낮으며, 현재 누구도 이를 따라올 수 없습니다. 그 이유는 극단적인 협동 설계(Extreme Co-design)에 있습니다.
Fireworks를 예로 들면, 엔비디아가 전체 소프트웨어 및 알고리즘을 업데이트하기 전에는 평균 토큰 속도가 초당 약 700개였으나, 업데이트 후에는 초당 거의 5,000개에 가까워져 약 7배 향상되었습니다. 이것이 극단적인 협동 설계의 힘입니다.
AI 공장: 데이터 센터에서 토큰 공장으로
데이터 센터는 과거에는 파일을 저장하는 장소였으나, 이제는 토큰을 생산하는 공장이 되었습니다. 모든 클라우드 서비스 제공업체와 모든 AI 회사는 앞으로 "토큰 공장 효율성"을 핵심 경영 지표로 삼을 것입니다.
이것이 저의 핵심 주장입니다:
세로축: 처리량(Throughput)------고정 전력 하에서 초당 생성되는 토큰 수
가로축: 상호작용 속도(Token Speed)------각 추론의 응답 속도, 속도가 빠를수록 사용 가능한 모델이 더 크고, 문맥이 더 길어지며, AI가 더 똑똑해집니다.
토큰은 새로운 원자재이며, 성숙하게 되면 계층화된 가격 책정이 이루어질 것입니다:
무료 계층(높은 처리량, 낮은 속도)
중간 계층(~백만 토큰당 3달러)
고급 계층(~백만 토큰당 6달러)
고속 계층(~백만 토큰당 45달러)
초고속 계층(~백만 토큰당 150달러)
호퍼와 비교할 때, 그레이스 블랙웰은 최고 가치 계층에서 35배의 처리량을 향상시켰으며, 새로운 계층을 도입하였습니다. 모델을 단순화하여 추정하면, 25%의 전력을 네 개의 계층에 각각 할당하면, 그레이스 블랙웰은 호퍼보다 5배 더 많은 수익을 창출할 수 있습니다.
베라 루빈: 차세대 AI 컴퓨팅 시스템
(베라 루빈 시스템 소개 비디오 재생)
베라 루빈은 완전한 엔드 투 엔드 최적화 시스템으로, 지능형 작업 부하를 위해 설계되었습니다:
대형 언어 모델 계산 핵심: NVLink 72 GPU 클러스터, 사전 채우기(Prefill) 및 KV 캐시 처리
완전히 새로운 베라 CPU: 극도로 높은 단일 스레드 성능을 위해 설계되었으며, LPDDR5 메모리를 사용하고 뛰어난 에너지 효율성을 자랑합니다. 이는 세계 유일의 LPDDR5를 사용하는 데이터 센터 CPU로, AI 지능형 도구 호출에 적합합니다.
저장 시스템: BlueField 4 + CX 9, AI 시대를 위한 새로운 저장 플랫폼으로, 전 세계 저장 산업이 100% 참여하고 있습니다.
CPO 스펙트럼 X 스위치: 세계 최초의 공동 패키징 광학 이더넷 스위치로, 이미 전면 양산되고 있습니다.
카이버 랙: 144개의 GPU로 구성된 단일 NVLink 도메인을 지원하는 새로운 랙 시스템으로, 전면 계산 및 후면 NVLink 스위칭을 통해 거대한 컴퓨터를 형성합니다.
루빈 울트라: 차세대 슈퍼컴퓨터 노드로, 수직 삽입형 디자인을 채택하여 카이버 랙과 결합하여 더 큰 규모의 NVLink 상호 연결을 지원합니다.
베라 루빈은 100% 액체 냉각되며, 설치 시간이 이틀에서 두 시간으로 단축되었고, 45도 열수로 냉각하여 데이터 센터의 냉각 압력을 크게 줄였습니다. 이번에 Satya(나델라)가 발표한 바에 따르면, 첫 번째 베라 루빈 랙이 마이크로소프트 Azure에서 운영되고 있으며, 저는 이에 대해 매우 기쁩니다.
Groq 통합: 추론 성능의 극한 연장
우리는 Groq 팀을 인수하고 그 기술 라이센스를 확보하였습니다. Groq는 결정론적 데이터 흐름 처리기(Deterministic Dataflow Processor)로, 정적 컴파일 및 컴파일러 스케줄링을 사용하며, 대량의 SRAM을 보유하고 있어 단일 작업 부하의 추론에 최적화되어 있으며, 매우 낮은 지연과 높은 토큰 생성 속도를 자랑합니다.
그러나 Groq의 메모리 용량은 제한적(500MB 온칩 SRAM)으로, 대형 모델의 매개변수와 KV 캐시를 독립적으로 수용하기 어려워 대규모 응용에 제약이 있었습니다.
해결책은 다이나모입니다------추론 스케줄링 소프트웨어입니다. 우리는 다이나모를 통해 추론 파이프라인을 분리하였습니다:
사전 채우기(Prefill) 및 주의 메커니즘의 디코딩(Decode)은 베라 루빈에서 완료됩니다(대량의 계산 능력과 KV 캐시 저장이 필요합니다).
전방향 네트워크 디코딩(Feed-Forward Network Decode) 즉 토큰 생성 부분은 Groq에서 완료됩니다(매우 높은 대역폭과 낮은 지연이 필요합니다).
두 시스템은 이더넷을 통해 긴밀하게 결합되어 있으며, 특별한 모드를 통해 지연을 약 절반으로 줄였습니다. 다이나모라는 "AI 공장 운영 시스템"의 통합 스케줄링 하에 전체 성능이 35배 향상되었으며, NVLink 72가 이전에 도달할 수 없었던 새로운 추론 성능 계층을 개척하였습니다.
Groq와 베라 루빈의 조합 제안:
만약 작업 부하가 높은 처리량을 주로 요구한다면, 100% 베라 루빈을 사용하십시오.
만약 많은 작업 부하가 코드 생성 등 고부가가치 토큰 생성이라면, Groq를 도입할 것을 권장하며, 비율은 약 25% Groq + 75% 베라 루빈이 적절합니다.
Groq LP30은 삼성에서 위탁 생산하였으며, 현재 양산에 들어갔고, 3분기부터 출하될 예정입니다. 삼성의 전폭적인 협력에 감사드립니다.
추론 성능의 역사적 비약
이전 기술 발전을 정량화해보면: 2년 동안, 1GW AI 공장의 토큰 생성 속도가 2,200만 토큰/초에서 7억 토큰/초로 향상되어 350배 증가하였습니다. 이것이 극단적인 협동 설계의 힘입니다.
기술 로드맵
블랙웰: 현재 생산 중이며, 오베론 표준 랙 시스템으로, 구리 케이블이 NVLink 72로 확장되며, 광학적으로 NVLink 576로 확장할 수 있습니다.
베라 루빈(현재): 카이버 랙, NVLink 144(구리 케이블); 오베론 랙, NVLink 72 + 광학, NVLink 576로 확장; 스펙트럼 6, 세계 최초의 CPO 스위치
베라 루빈 울트라(곧 출시): 차세대 루빈 울트라 GPU, LP35 칩(최초로 NVFP4 통합), 성능을 수배 향상시킵니다.
파인만(차세대): 완전히 새로운 GPU, LP40 칩(엔비디아와 Groq 팀이 공동 제작, NVFP4 통합); 새로운 CPU------로사(Rosalyn); 블루필드 5; CX 10; 구리 케이블과 CPO 두 가지 확장 방식을 모두 지원하는 카이버 랙
로드맵은 명확합니다: 구리 케이블 확장, 광학 확장(Scale-Up), 광학 확장(Scale-Out) 세 가지 경로가 병행하여 추진되고 있으며, 우리는 모든 파트너가 구리 케이블, 광섬유 및 CPO의 지속적인 생산 확대를 필요로 합니다.
NVIDIA DSX: AI 공장의 디지털 쌍둥이 플랫폼
AI 공장은 점점 더 복잡해지고 있지만, 이를 구성하는 다양한 기술 공급업체들은 과거에 설계 단계에서 서로 협력한 적이 없었습니다. 데이터 센터에서야 비로소 "만나게" 되었습니다------이는 분명히 부족합니다.
이를 위해 우리는 옴니버스(Omniverse)와 그 위에 기반한 NVIDIA DSX 플랫폼을 만들었습니다------모든 파트너가 가상 세계에서 기가와트급 AI 공장을 공동 설계하고 운영할 수 있는 플랫폼입니다. DSX는 다음을 제공합니다:
랙 수준의 기계, 열학, 전기, 네트워크 시뮬레이션 시스템
전력망과의 연결을 통해 협동 에너지 절약 스케줄링을 실현합니다.
데이터 센터 내 Max-Q 기반의 동적 전력 소비 및 냉각 최적화
보수적으로 추정할 때, 이 시스템은 에너지 이용 효율성을 약 2배 향상시킬 수 있으며, 우리가 논의하는 규모에서 이는 매우 상당한 수익입니다. 옴니버스는 디지털 지구에서 시작하여, 다양한 규모의 디지털 쌍둥이를 수용할 것이며, 우리는 전 세계 파트너와 함께 인류 역사상 가장 큰 컴퓨터를 구축하고 있습니다.
또한, 엔비디아는 우주로 진출하고 있습니다. 토르(Thor) 칩은 방사선 인증을 통과하였으며, 위성에서 운영되고 있습니다. 우리는 파트너와 협력하여 우주 데이터 센터를 구축하기 위한 베라 루빈 스페이스-1을 개발하고 있습니다. 우주에서는 방사선 냉각에 의존해야 하며, 열 관리가 핵심 도전 과제가 되고 있습니다. 우리는 최고의 엔지니어를 모아 이 문제를 해결하고 있습니다.
OpenClaw: 지능형 시대의 운영 체제
피터 스타인버거는 OpenClaw라는 소프트웨어를 개발하였습니다. 이는 인류 역사상 가장 인기 있는 오픈 소스 프로젝트로, 단 몇 주 만에 리눅스의 30년 성과를 초월하였습니다.
OpenClaw는 본질적으로 지능형 시스템(Agentic System)으로, 다음을 수행할 수 있습니다:
자원을 관리하고, 도구, 파일 시스템 및 대형 언어 모델에 접근합니다.
스케줄링 및 정기 작업을 수행합니다.
문제를 단계적으로 분해하고, 하위 지능형 시스템을 호출합니다.
임의의 모달 입력 및 출력을 지원합니다(음성, 비디오, 텍스트, 이메일 등).
운영 체제의 문법으로 설명하자면, 이는 실제로 운영 체제입니다------지능형 컴퓨터의 운영 체제입니다. 윈도우는 개인 컴퓨터를 가능하게 하였고, OpenClaw는 개인 지능형 시스템을 가능하게 합니다.
모든 기업은 자신의 OpenClaw 전략을 수립해야 합니다. 마치 우리가 모두 리눅스 전략, HTML 전략, 쿠버네티스 전략이 필요한 것처럼 말입니다.
기업 IT의 전면적 재구성
OpenClaw 이전의 기업 IT: 데이터와 파일이 시스템에 들어가고, 도구와 워크플로우를 거쳐 최종적으로 인간이 사용할 수 있는 도구로 변환됩니다. 소프트웨어 회사는 도구를 만들고, 시스템 통합업체(GSI)와 컨설팅 회사는 기업이 이러한 도구를 사용하는 데 도움을 줍니다.
OpenClaw 이후의 기업 IT: 모든 SaaS 회사는 AaaS(Agentic as a Service, 지능형 시스템 즉 서비스) 회사로 전환됩니다------단순히 도구를 제공하는 것이 아니라, 특정 분야에 전문화된 AI 지능형 시스템을 제공합니다.
하지만 여기에는 중요한 도전 과제가 있습니다: 기업 내부의 지능형 시스템은 민감한 데이터에 접근하고, 코드를 실행하며, 외부와 통신할 수 있습니다. 이는 기업 환경에서 엄격히 관리되어야 합니다.
이를 위해 우리는 피터와 협력하여 기업 수준 버전에 보안을 통합하였으며, 다음을 출시하였습니다:
NeMo Claw(참조 설계): OpenClaw를 기반으로 한 기업 수준의 참조 프레임워크로, NVIDIA의 전체 지능형 AI 도구 키트를 통합합니다.
Open Shield(보안 계층): OpenClaw에 통합되어 있으며, 정책 엔진, 네트워크 방화벽, 프라이버시 라우터를 제공하여 기업 데이터의 안전을 보장합니다.
NeMo Cloud: 다운로드하여 사용할 수 있으며, 모든 SaaS 기업의 정책 엔진과 연결됩니다.
이는 기업 IT의 르네상스이며, 원래 2조 달러 규모의 산업이 수조 달러 규모로 성장할 것이며, 도구 제공에서 전문화된 AI 지능형 시스템 서비스 제공으로 전환될 것입니다.
저는 완전히 예견할 수 있습니다: 미래에는 회사의 모든 엔지니어가 연간 토큰 예산을 가질 것입니다. 그들의 연봉은 수십만 달러일 수 있으며, 저는 그 금액의 절반에 해당하는 토큰 할당량을 추가하여 그들의 생산성을 10배로 확대할 것입니다. "입사 시 얼마나 많은 토큰 할당량이 포함되어 있습니까?"는 이미 실리콘 밸리의 새로운 채용 화제가 되었습니다.
모든 기업은 앞으로 토큰의 사용자(엔지니어가 사용하는)일 뿐만 아니라, 토큰의 생산자(고객에게 서비스를 제공하는)로서의 역할을 하게 될 것입니다. OpenClaw의 의미는 저평가될 수 없으며, 이는 HTML, 리눅스만큼이나 중요합니다.
NVIDIA 오픈 모델 이니셔티브
커스텀 지능형 시스템(Custom Claw) 측면에서, 우리는 NVIDIA가 자체 개발한 최첨단 모델을 제공합니다:
모델 분야 Nemotron 대형 언어 모델 Cosmos 세계 기본 모델(GROOT) 범용 휴머노이드 로봇 모델 Alpamayo 자율주행 BioNeMo 디지털 생물학 Phys-AI AI 물리
우리는 각 분야에서 기술 최전선에 있으며, 지속적인 반복을 약속합니다------Nemotron 3 이후 Nemotron 4가, Cosmos 1 이후 Cosmos 2가, Groq도 두 번째 세대로 발전할 것입니다.
Nemotron 3는 OpenClaw에서 세계 3대 최고의 모델 중 하나로 자리 잡고 있으며, 최전선 수준에 있습니다. Nemotron 3 Ultra는 역사상 가장 강력한 기본 모델이 될 것이며, 각국이 주권 AI를 구축하는 것을 지원할 것입니다.
오늘, 우리는 Nemotron 연합을 설립하고 AI 기본 모델 연구 개발을 추진하기 위해 수십억 달러를 투자한다고 발표합니다. 연합 회원에는 BlackForest Labs, Cursor, LangChain, Mistral, Perplexity, Reflection, Sarvam(인도), Thinking Machines(미라 무라티의 연구소) 등이 포함됩니다. 하나하나의 기업 소프트웨어 회사가 NeMo Claw 참조 설계와 NVIDIA 지능형 AI 도구 키트를 자사 제품에 통합하고 있습니다.
물리 AI와 로봇
디지털 지능형 시스템은 디지털 세계에서 행동합니다------코드를 작성하고, 데이터를 분석합니다; 반면 물리 AI는 구체화된 지능형 시스템, 즉 로봇입니다.
이번 GTC에서는 110종의 로봇이 등장하였으며, 거의 모든 로봇 연구 개발 기업을 포괄하고 있습니다. 엔비디아는 세 대의 컴퓨터(훈련 컴퓨터, 시뮬레이션 컴퓨터, 탑재 컴퓨터)와 완전한 소프트웨어 스택 및 AI 모델을 제공합니다.
자율주행 측면에서, 자율주행의 "ChatGPT 순간"이 도래하였습니다. 오늘, 우리는 네 개의 새로운 파트너가 엔비디아 RoboTaxi Ready 플랫폼에 합류한다고 발표합니다: BYD, 현대, 닛산, 지리, 총 연간 생산량은 1,800만 대입니다. 이전의 메르세데스, 도요타, 제너럴 모터스와 함께, 이들은 더욱 강력한 팀을 형성하고 있습니다. 우리는 또한 Uber와 중요한 협력을 체결하여 여러 도시에서 RoboTaxi Ready 차량을 배치하고 연결할 것입니다.
산업 로봇 측면에서, ABB, 유니버설 로보틱스, KUKA 등 많은 로봇 기업들이 우리와 협력하여 물리 AI 모델과 시뮬레이션 시스템을 결합하여 전 세계 제조 라인에 로봇을 배치하고 있습니다.
통신 측면에서, 캐터필러(Caterpillar)와 T-Mobile도 그 중 하나입니다. 미래에는 무선 기지국이 단순한 통신 노드가 아니라, NVIDIA Aerial AI RAN------실시간으로 트래픽을 인식하고, 빔 형성을 조정하여 에너지 절약 및 효율성을 실현하는 지능형 엣지 컴퓨팅 플랫폼이 될 것입니다.
특별 세션: 올라프 로봇 등장
(디즈니 올라프 로봇 시연 비디오 재생)
젠슨 황: 눈사람이 등장했습니다! 뉴턴이 정상적으로 작동하고 있습니다! 옴니버스도 정상적으로 작동하고 있습니다! 올라프, 잘 지내고 있나요?
올라프: 당신을 만나서 정말 기쁩니다.
젠슨 황: 네, 제가 당신에게 컴퓨터를 주었기 때문입니다------제트슨!
올라프: 그게 뭐죠?
젠슨 황: 당신의 배 속에 있습니다.
올라프: 정말 신기하네요.
젠슨 황: 당신은 옴니버스에서 걷는 법을 배웠습니다.
올라프: 저는 걷는 것을 좋아합니다. 이것은 순록을 타고 아름다운 하늘을 바라보는 것보다 훨씬 좋습니다.
젠슨 황: 그것은 물리적 시뮬레이션 덕분입니다------NVIDIA Warp에서 작동하는 뉴턴 해결기입니다. 이는 우리가 디즈니와 DeepMind와 함께 개발한 것이며, 당신이 실제 물리 세계에 적응할 수 있도록 해줍니다.
올라프: 제가 바로 그걸 말하고 싶었습니다.
젠슨 황: 당신이 똑똑한 이유입니다. 저는 눈사람이지, 눈덩이가 아닙니다.
젠슨 황: 상상할 수 있나요? 미래의 디즈니랜드------이 모든 로봇 캐릭터들이 공원에서 자유롭게 돌아다닙니다. 하지만 솔직히 말하자면, 저는 당신이 더 키가 클 줄 알았습니다. 이렇게 작은 눈사람은 처음 봅니다.
올라프: (무응답)
젠슨 황: 오늘 발표를 마무리하는 데 도와줄 수 있나요?
올라프: 너무 좋습니다!
주제 발표 요약
젠슨 황: 오늘, 우리는 다음의 핵심 주제에 대해 논의하였습니다:
추론 전환점의 도래: 추론은 AI의 가장 핵심 작업 부하가 되었으며, 토큰은 새로운 원자재로, 추론 성능이 직접적으로 수익을 결정합니다.
AI 공장 시대: 데이터 센터는 파일 저장 시설에서 토큰 생산 공장으로 진화하였으며, 앞으로 모든 회사는 "AI 공장 효율성"으로 자신의 경쟁력을 측정할 것입니다.
OpenClaw 지능형 혁명: OpenClaw는 지능형 계산 시대를 열었으며, 기업 IT는 도구 시대에서 지능형 시스템 시대로 전환되고 있으며, 모든 기업은 OpenClaw 전략을 수립해야 합니다.
물리 AI와 로봇: 구체화된 지능형 시스템이 대규모로 실현되고 있으며, 자율주행, 산업 로봇, 휴머노이드 로봇이 물리 AI의 다음 큰 기회를 형성하고 있습니다.
감사합니다, GTC 즐거운 시간 되세요!











