AI 배포는 점점 더 복잡해지고 있으며, 워크로드는 클라우드, 엣지 및 온프레미스 데이터센터 인프라에 분산되어 있다. 제너레이티브 AI, 추천 시스템, 검색 엔진 및 기타 워크로드를 관리하고 오케스트레이션하려면 시스템 수준과 기본 인프라에서 성능을 최적화하기 위한 정교한 스케줄링이 필요하다.
AI 및 디지털 트윈 제공업체인 엔비디아 ( NVIDIA )가 쿠버네티스 기반 GPU 워크로드 관리 및 오케스트레이션 소프트웨어 제공업체인 런(Run:ai)의 인수 를 마무리했다. 2024년 4월에 처음 발표된 이번 인수는 GPU 활용도를 높이고, GPU 인프라 관리를 개선하며, 개방형 아키텍처를 통해 유연성을 높이기 위한 것이다.
Runai 를 통해 기업 고객은 온프레미스, 클라우드 또는 하이브리드 환경에서 컴퓨팅 인프라를 관리하고 최적화할 수 있다. Run:ai의 제품은 현재 NVIDIA GPU만 지원하지만 인기 있는 모든 Kubernetes 변형을 지원하고 타사 AI 도구 및 프레임워크와 통합된다. 이 회사는 Run:ai 소프트웨어를 오픈 소스로 제공하여 전체 AI 생태계로 가용성을 확장할 계획이라고 발표했다.
Run:ai 플랫폼에는 다음이 포함된다.
•공유 컴퓨팅 인프라를 관리하기 위한 중앙 집중식 인터페이스
•사용자를 추가하고, 팀에서 사용자를 큐레이팅하고, 클러스터 리소스에 대한 액세스를 제공하고, 할당량, 우선 순위 및 풀을 제어하고, 리소스 사용을 모니터링 및 보고하는 기능
•GPU를 풀링하고 GPU의 일부에서 여러 GPU 또는 서로 다른 클러스터에서 실행되는 GPU의 여러 노드에 이르기까지 별도의 작업을 위해 컴퓨팅 성능을 공유할 수 있는 기능
•효율적인 GPU 클러스터 리소스 활용
Run:ai는 2020년부터 NVIDIA와 긴밀한 협력 관계를 유지해 왔으며, Run:ai 플랫폼을 사용하여 데이터센터 규모의 GPU 클러스터를 관리하는 여러 산업 분야의 세계 최대 기업을 고객층으로 두고 있다. NVIDIA HGX, DGX 및 DGX 클라우드 고객은 AI 워크로드, 특히 대규모 언어 모델 배포를 위한 Run:ai의 기능에 액세스할 수 있다. 런:ai의 솔루션은 이미 NVIDIA DGX, NVIDIA DGX SuperPOD, NVIDIA Base Command, NGC 컨테이너, NVIDIA AI Enterprise 소프트웨어 등과 통합되어 있다.