2026.04.16
204
0
0
GeminiNEW

Gemini Robotics-ER 1.6 출시: 로봇 시각·공간 추론 혁신, 계기 판독 93% 정확도

Google DeepMind가 2026년 4월 14일 Gemini Robotics-ER 1.6을 공개했다. 향상된 공간 추론으로 로봇의 물체 계수, 계기 판독, 작업 계획 능력이 개선됐으며, 에이전틱 비전 활성화 시 계기 판독 정확도 93%를 달성했다.

#Gemini#로봇AI#GeminiRobotics#DeepMind#공간추론
Gemini Robotics-ER 1.6 출시: 로봇 시각·공간 추론 혁신, 계기 판독 93% 정확도
AI 핵심 요약

Google DeepMind가 2026년 4월 14일 Gemini Robotics-ER 1.6을 공개했다. 향상된 공간 추론으로 로봇의 물체 계수, 계기 판독, 작업 계획 능력이 개선됐으며, 에이전틱 비전 활성화 시 계기 판독 정확도 93%를 달성했다.

Gemini Robotics-ER 1.6: 로봇의 눈과 판단력을 업그레이드하다

Google DeepMind가 2026년 4월 14일 Gemini Robotics-ER 1.6을 공개했다. ER은 'Embodied Reasoning(체화 추론)'의 약자로, 물리적 세계와 상호작용하는 로봇의 인식·계획·실행 역량을 전담하는 모델 라인이다. 이번 1.6 버전은 전임 ER 1.5와 Gemini 3.0 Flash를 모두 능가하는 공간 추론 성능으로 실제 산업 환경 로봇 적용 가능성을 한층 높였다.

공간 추론 및 포인팅 정밀도 향상

Gemini Robotics-ER 1.6의 핵심 개선 사항은 포인팅(Pointing) 정밀도와 물체 계수(Counting) 능력이다. 로봇은 여러 물체 중 특정 대상을 정확히 가리키고, 유사한 물체들 사이에서 오탐 없이 정확한 개수를 세는 작업을 개선된 수준으로 수행할 수 있다.

예를 들어, 공구 상자에 있는 플라이어가 몇 개인지 세거나, 없는 물체를 존재한다고 잘못 지적하는 오류가 이전 버전 대비 크게 줄었다. 이 능력은 창고 자동화, 부품 검수, 수술 보조 로봇 등 정밀도가 요구되는 분야에서 직결된 의미를 갖는다.

계기 판독 정확도 93% 달성

Gemini Robotics-ER 1.6에서 가장 주목할 신규 기능은 계기 판독(Instrument Reading) 능력이다. 이전 모델들이 23%에 불과했던 계기 판독 성공률이, 에이전틱 비전(Agentic Vision)을 활성화하면 **93%**까지 상승했다. 에이전틱 비전 없이도 86% 수준을 달성한다.

모델은 압력 게이지, 사이트 글라스, 아날로그 지시계 등 산업용 계기를 시각 분석과 코드 실행, 비례 추정의 조합으로 읽어낸다. 이 능력은 인간 작업자 없이도 산업 시설의 정기 점검 자동화를 가능하게 한다.

멀티뷰 추론: 여러 카메라를 동시에 이해

Gemini Robotics-ER 1.6은 멀티뷰 이해(Multi-View Understanding) 역량도 강화됐다. 로봇에 탑재된 여러 카메라의 영상을 동시에 처리하면서, 카메라 간 공간 관계와 가려진 물체까지 추론할 수 있다. 동적으로 변화하는 환경이나 물체가 겹치는 상황에서도 안정적인 인식이 가능하다.

작업 계획과 성공 감지

이전 버전 대비 개선된 또 다른 축은 **작업 성공 감지(Success Detection)**다. 로봇이 특정 작업을 완료했는지 스스로 판단하는 능력으로, 조립 완료 여부, 배치 정확도, 접촉 완성도 등을 자율적으로 검증한다. 이는 사람의 감독 없이 연속 작업 흐름을 구성하는 데 필수적이다.

안전 지침 준수 개선

Google DeepMind는 성능 향상 외에도 안전 지침 준수율이 이전 버전 대비 크게 향상됐다고 밝혔다. 로봇이 작업 중 위험 상황에서 정지하거나 인간 개입을 요청하는 안전 동작의 신뢰성이 높아졌다.

가용성: Gemini API와 AI Studio

Gemini Robotics-ER 1.6은 현재 Gemini APIGoogle AI Studio를 통해 개발자에게 제공된다. Colab 문서가 함께 제공되며, 개발자는 embodied reasoning 기반 애플리케이션을 테스트하고 구축할 수 있다.

Boston Dynamics의 Spot 로봇이 이미 이 모델을 검사 플랫폼에 통합했으며, 산업 검사 및 자율 순찰 기능 향상에 활용 중이다.

전망: 물리 AI의 실용화 가속

Gemini Robotics-ER 시리즈는 LLM이 가상 세계의 텍스트와 이미지를 넘어 물리적 세계와 직접 상호작용하는 흐름을 이끌고 있다. 계기 판독, 공간 추론, 작업 성공 감지 등 실제 산업 현장에서 요구되는 기능들이 빠르게 실용 수준에 도달하고 있어, 물리 AI 로봇의 상용화 시점이 앞당겨질 것으로 예상된다.

결론

Gemini Robotics-ER 1.6은 로봇 AI의 실용적 도약을 보여주는 업데이트다. 계기 판독 93%, 포인팅 정밀도 향상, 멀티뷰 추론 강화 등 구체적 수치로 뒷받침되는 성능 개선은 창고 자동화, 산업 검사, 의료 보조 등 다양한 분야에서 로봇 도입을 촉진할 것이다. API와 AI Studio를 통한 개방적 제공 방식도 개발자 생태계 확산에 기여할 것으로 기대된다.

장점

  • 계기 판독 성공률 93%로 실제 산업 현장 요구 수준에 근접
  • Gemini API/AI Studio를 통한 개방적 접근으로 개발자 활용 용이
  • 전임 모델 대비 포인팅, 계수, 성공 감지 전 영역에서 일관된 성능 향상
  • 안전 지침 준수율 개선으로 실제 산업 배포 신뢰성 향상

단점/한계

  • 에이전틱 비전 없이는 계기 판독 정확도 86%로 낮아져 고신뢰 환경에서는 의존성 있음
  • 물리 로봇 하드웨어와의 실시간 통합에서 추가 지연(latency) 문제 검증 필요
  • 산업용 계기 외 비정형 환경(야외, 혼잡 공간)에서의 성능 데이터 미공개

댓글0

주요 기능/특징

1. 계기 판독 정확도 93%(에이전틱 비전 활성화 시): 압력 게이지, 아날로그 지시계 등 산업용 계기 자율 판독 2. 향상된 포인팅 및 계수 능력: 여러 유사 물체 사이에서 정확한 대상 지정 및 오탐 없는 개수 세기 3. 멀티뷰 추론: 여러 카메라 스트림을 동시 처리해 가려진 물체와 공간 관계 이해 4. 작업 성공 감지: 조립 완료, 배치 정확도 등을 로봇이 자율 검증하는 능력 5. Gemini API/AI Studio 제공: 개발자 접근 가능, Boston Dynamics Spot에 이미 통합

핵심 인사이트

  • 계기 판독 23%에서 93%로의 도약은 이전 모델과 질적으로 다른 산업 현장 적용 가능성을 의미한다
  • 에이전틱 비전(코드 실행 + 비주얼 분석 조합)이 단순 이미지 인식의 한계를 돌파하는 접근임을 보여준다
  • 멀티뷰 추론 능력은 단일 카메라 기반 로봇의 근본적 한계를 해소하는 핵심 기능이다
  • Boston Dynamics Spot 통합은 로봇 AI가 연구 단계를 넘어 실제 배포 단계에 진입했음을 보여준다
  • 작업 성공 감지 개선은 완전 자율 작업 루프 구성에 필수적인 피드백 루프를 제공한다
  • 안전 지침 준수율 향상은 산업 현장 인증 획득에 중요한 요소가 될 것이다
  • 물리 AI 모델의 API 개방은 로봇 스타트업 생태계 성장을 크게 가속할 것이다

이 리뷰가 유용했나요?

공유하기

관련 AI 리뷰