Google DeepMind는 최신 Gemini Robotics 모델이 여러 로봇 구현에서 작동할 수 있다고 말했다. 출처: 구글 딥마인드
Google DeepMind( 구글딥마인드 )는 로봇을 위한 인공 일반 지능(AGI)을 향한 한 걸음으로 "고급 사고로 에이전트 경험을 잠금 해제한다"고 주장하는 두 가지 모델을 소개했다. 새로운 모델은 다음과 같다.
제미니 로보틱스 1.5: DeepMind ( 제미니로보틱스일점오 )는 이것이 지금까지 가장 유능한 VLA(Vision-Language-Action) 모델이라고 말했다. 시각적 정보와 지침을 로봇이 작업을 수행할 수 있도록 모터 명령으로 변환할 수 있다. 또한 조치를 취하기 전에 생각하고 프로세스를 보여주어 로봇이 복잡한 작업을 보다 투명하게 평가하고 완료할 수 있도록 한다. 이 모델은 또한 실시예 전반에 걸쳐 학습하여 기술 학습을 가속화한다.
제미니 로보틱스-ER 1.5( 제미니로보틱스이알일점오 ): 회사는 이것이 가장 유능한 비전 언어 모델(VLM)이라고 말했다. 물리적 세계에 대해 추론하고, 기본적으로 디지털 도구를 호출하며, 임무를 완료하기 위한 상세한 다단계 계획을 수립한다. DeepMind는 이제 공간 이해 벤치마크 전반에 걸쳐 최첨단 성능을 달성했다고 말했다.
DeepMind는 Google AI 스튜디오의 Gemini 애플리케이션 프로그래밍 인터페이스(API)를 통해 개발자가 Gemini Robotics-ER 1.5를 사용할 수 있도록 하고 있다. Gemini Robotics 1.5는 현재 일부 파트너에게 제공된다.
회사는 이번 출시가 물리적 세계에서 AGI를 해결하기 위한 중요한 이정표라고 주장했다. Google은 에이전트 기능을 도입함으로써 명령에 반응하는 AI 모델을 넘어 추론, 계획, 적극적인 도구 사용 및 일반화가 가능한 시스템을 만들고 있다고 밝혔다.
DeepMind는 물리적 작업을 위한 에이전트 경험을 설계한다.
대부분의 일상 작업에는 상황에 맞는 정보와 여러 단계가 필요하므로 오늘날 로봇에게는 매우 어려운 작업으로 악명이 높다. 이것이 바로 DeepMind가 에이전트 프레임워크에서 함께 작동하도록 이 두 모델을 설계한 이유다.
Gemini Robotics-ER 1.5는 높은 수준의 두뇌처럼 로봇의 활동을 조율한다. DeepMind는 이 모델이 물리적 환경 내에서 논리적 결정을 계획하고 내리는 데 탁월하다고 말했다. 최첨단 공간 이해 기능을 갖추고 자연어로 상호 작용하며 성공과 진행 상황을 추정하며 기본적으로 Google 검색과 같은 도구를 호출하여 정보를 찾거나 타사 사용자 정의 기능을 사용할 수 있다.
VLM은 Gemini Robotics에 각 단계에 대해 1.5개의 자연어 지침을 제공하며, 이는 시각과 언어 이해를 사용하여 특정 작업을 직접 수행한다. Gemini Robotics 1.5는 또한 로봇이 의미론적으로 복잡한 작업을 더 잘 해결하기 위해 자신의 행동에 대해 생각할 수 있도록 돕고 사고 과정을 자연어로 설명할 수도 있어 결정을 더욱 투명하게 만든다.
이 두 모델 모두 핵심 Gemini 모델 제품군을 기반으로 구축되었으며 각각의 역할을 전문화하기 위해 다양한 데이터 세트로 미세 조정되었다. 결합하면 더 긴 작업과 더 다양한 환경으로 일반화하는 로봇의 능력이 향상된다고 DeepMind는 말했다.
로봇은 환경을 이해하고 행동하기 전에 생각할 수 있다.
Gemini Robotics-ER 1.5는 구체화된 추론에 최적화된 사고 모델이라고 Google DeepMind는 말했다. 회사는 "신뢰할 수 있는 테스터 프로그램의 실제 사용 사례에서 영감을 받아 학술 및 내부 벤치마크 모두에서 최첨단 성능을 달성했다"고 주장했다.
딥마인드는 ERQA(Embodied Reasoning Question Answering) 및 Point-Bench를 포함한 15개의 학술 벤치마크에서 Gemini Robotics-ER 1.5를 평가하여 포인팅, 이미지 질문 답변 및 비디오 질문 답변에 대한 모델의 성능을 측정했다.
VLA 모델은 전통적으로 지침이나 언어 계획을 로봇의 움직임으로 직접 변환한다. Gemini Robotics 1.5는 한 단계 더 나아가 로봇이 행동을 취하기 전에 생각할 수 있도록 한다고 DeepMind는 말했다. 즉, 자연어로 추론 및 분석의 내부 시퀀스를 생성하여 여러 단계가 필요하거나 더 깊은 의미론적 이해가 필요한 작업을 수행할 수 있다.
DeepMind는 "예를 들어, '세탁물을 색상별로 분류하세요'와 같은 작업을 완료할 때 로봇은 다양한 수준에서 생각합니다"라고 썼다. "첫째, 색상별로 분류한다는 것은 흰색 옷을 흰색 쓰레기통에 넣고 다른 색상을 검은색 쓰레기통에 넣는 것을 의미한다는 것을 이해합니다. 그런 다음 빨간색 스웨터를 집어 검은색 쓰레기통에 넣는 것과 같이 취해야 할 단계와 스웨터를 더 쉽게 집어 들기 위해 스웨터를 더 가까이 옮기는 것과 같은 세부적인 동작에 대해 생각합니다."
다단계 사고 과정에서 VLA 모델은 더 긴 작업을 로봇이 성공적으로 실행할 수 있는 더 간단하고 짧은 세그먼트로 전환하기로 결정할 수 있다. 또한 모델이 새로운 작업을 해결하고 환경 변화에 더 견고하도록 일반화하는 데 도움이 된다.
쌍둥이자리는 실시예 전반에 걸쳐 학습한다.
로봇은 모양과 크기가 다양하며 감지 능력과 자유도가 다르기 때문에 한 로봇에서 학습한 동작을 다른 로봇으로 전달하기가 어렵다.
DeepMind는 Gemini Robotics 1.5가 다양한 구현 조건에서 학습할 수 있는 놀라운 능력을 보여준다고 말했다. 한 로봇에서 학습된 동작을 각각의 새로운 실시예에 맞게 모델을 전문화할 필요 없이 다른 로봇으로 전송할 수 있다. 이는 새로운 행동 학습을 가속화하여 로봇이 더 똑똑하고 유용해지도록 돕는다.
예를 들어, DeepMind는 훈련 중에 ALOHA 2 로봇에만 제시된 작업이 Apptronik의 휴머노이드 로봇인 Apollo 및 이중 팔 Franka 로봇에서만 작동하며 그 반대의 경우도 마찬가지라는 것을 관찰했다.
딥마인드는 제미니 로보틱스 1.5가 행동하기 전에 안전에 대해 생각하고, 기존 제미니 안전 정책에 맞춰 인간과 존중하는 대화를 보장하고, 필요할 때 로봇에 탑재된 낮은 수준의 안전 하위 시스템(예: 충돌 방지)을 트리거하는 등 높은 수준의 의미론적 추론을 통해 안전에 대한 전체적인 접근 방식을 구현한다고 말했다.
Gemini Robotics 모델의 안전한 개발을 안내하기 위해 DeepMind는 더 나은 꼬리 커버리지, 향상된 주석, 새로운 안전 질문 유형 및 새로운 비디오 양식을 통해 의미론적 안전성을 평가하고 개선하기 위한 포괄적인 데이터 세트 모음인 ASIMOV 벤치마크의 업그레이드도 출시한다. ASIMOV 벤치마크의 안전성 평가에서 Gemini Robotics-ER 1.5는 최첨단 성능을 보여주며, 사고 능력은 의미론적 안전에 대한 이해를 높이고 물리적 안전 제약을 더 잘 준수하는 데 크게 기여한다.