NVIDIA, AI 공장 설계 및 시뮬레이션
최교식 2025-03-24 15:10:11

 

 

 

AI가 주류에 진입하면서 AI 훈련, 추론 및 대규모 인텔리전스 생산을 위해 설계된 전문 인프라인 AI 공장에 대한 전례 없는 수요가 증가하고 있다. 이러한 시설 중 다수는 기가와트 규모로 운영될 예정이므로 엄청난 엔지니어링 및 물류 노력이 필요하다. 단일 기가와트 AI 공장을 건설하려면 공급업체, 건축가, 계약업체 및 엔지니어 전반에 걸쳐 수만 명의 근로자가 참여하여 거의 50억 개의 구성 요소와 210,000마일 이상의 광섬유 케이블을 조립해야 한다.

 

AI 공장 운영자에게 앞서 나가는 것은 단순히 효율성을 극대화하는 것 이상을 의미하며, 막대한 재정적 손실을 초래할 수 있는 인프라 장애를 방지하는 것이다. NVIDIA에 따르면 1기가와트 AI 공장에서 하루만 다운타임이 발생하면 1억 달러가 넘는 비용이 발생할 수 있다.

 

AI공장의설계 와 최적화를 지원하기 위해 NVIDIAAI 공장 계획 및 운영을 위한 NVIDIAOmniverse Blueprint를( 엔비디아옴니버스블루프린트 ) 도입했다. 이 청사진은 인프라 문제를 미리 해결함으로써 위험을 최소화하고 배포 일정을 가속화하는 것을 목표로 한다.

 

엔지니어링 AI 공장: 시뮬레이션 우선 접근 방식

AI 공장 설계 및 운영을 위한 NVIDIA Omniverse BlueprintOpenUSD 라이브러리를 활용하여 개발자가 시설 자체, NVIDIA 가속 컴퓨팅 시스템, 슈나이더 일렉트릭(Schneider Electric) 및 버티브(Vertiv)와 같은 공급업체의 전력 또는 냉각 장치를 포함한 다양한 소스의 3D 데이터를 통합할 수 있도록 한다.

 

수십억 개의 구성 요소에 대한 설계 및 시뮬레이션을 통합함으로써 이 청사진은 엔지니어가 다음과 같은 복잡한 문제를 해결하는 데 도움이 된다.

 

구성 요소 통합 및 공간 최적화.

 

냉각 시스템 성능 및 효율성.

 

전력 분배 및 신뢰성.

 

네트워킹 토폴로지 및 논리.

 

엔지니어링 사일로 해소

AI 공장 건설의 가장 큰 과제 중 하나는 전력, 냉각, 네트워킹 등 여러 팀의 사일로화된 운영으로 인해 비효율성과 잠재적인 실패가 발생할 수 있다는 것이다. NVIDIA Omniverse 블루프린트를 통해 엔지니어는 이제 다음을 수행할 수 있다.

 

전체 컨텍스트에서 협업: 여러 분야가 병렬로 반복할 수 있으며, 한 도메인의 변경 사항이 다른 도메인에 어떤 영향을 미치는지 보여주는 실시간 시뮬레이션을 공유할 수 있다.

 

에너지 사용 최적화: 실시간 시뮬레이션 업데이트를 통해 팀은 AI 워크로드에 가장 효율적인 설계를 찾을 수 있다.

 

오류 지점 제거: 배포 전에 이중화 구성을 검증함으로써 조직은 비용이 많이 드는 다운타임의 위험을 줄일 수 있다.

 

실제 조건 모델링: 다양한 AI 워크로드가 냉각, 전력 안정성 및 네트워크 정체에 어떤 영향을 미칠지 예측하고 테스한다.

 

NVIDIA Omniverse Blueprint는 여러 분야에 걸쳐 실시간 시뮬레이션을 통합함으로써 엔지니어링 팀이 다양한 구성을 탐색하고, 총 소유 비용을 평가하고, 전력 활용을 최적화하여 효율성을 개선할 수 있도록 지원한다.

 

기타 NVIDIA 발표

다른 주요 발표로는 NVIDIA Blackwell Ultra 출시, NVIDIA Blackwell AI 팩토리 플랫폼의 차세대 진화, 오픈 소스 추론 프레임워크인 NVIDIA Dynamo 도입 등이 있다. Blackwell Ultra는 추론 중에 더 많은 컴퓨팅을 적용하여 정확도를 개선함으로써 조직이 추론, 에이전트 AI 및 물리적 AI와 같은 AI 애플리케이션을 가속화할 수 있도록 교육 및 테스트 시간 확장 추론을 개선하도록 설계되었다. 한편, NVIDIA Dynamo는 최적의 GPU 리소스 활용을 보장하면서 추론 AI 모델을 배포하는 AI 공장의 토큰 수익을 극대화하는 것을 목표로 하는 새로운 AI 추론 제공 소프트웨어다.

 

블랙웰 울트라 기반 제품은 2025년 하반기부터 파트너를 통해 출시될 예정이다. 시스코(Cisco), 델 테크놀로지스(Dell Technologies), 휴렛팩커드 엔터프라이즈(Hewlett Packard Enterprise), 레노버(Lenovo), 수퍼마이크로(Supermicro)를 비롯한 선도 기업들은 블랙웰 울트라(Blackwell Ultra)를 기반으로 구축된 다양한 서버를 제공할 예정이다. 이러한 제품을 제공하는 추가 파트너로는 Aivres, ASRock Rack, ASUS, Eviden, Foxconn, GIGABYTE, Inventec, Pegatron, Quanta Cloud Technology(QCT), Wistron Wiwynn이 있다.

 

클라우드 서비스 제공업체인 아마존 웹 서비스(Amazon Web Services), 구글 클라우드(Google Cloud), 마이크로소프트 애저(Microsoft Azure), 오라클 클라우드 인프라스트럭처(Oracle Cloud Infrastructure)GPU 클라우드 제공업체인 코어위브(CoreWeave), 크루소(Crusoe), 람다(Lambda), 네비우스(Nebius), 엔스케일(Nscale), 요타(Yotta), YTL이 블랙웰 울트라 기반 인스턴스를 최초로 제공할 예정이다.

 
디지털여기에 news@yeogie.com <저작권자 @ 여기에. 무단전재 - 재배포금지>