영화 ‘아이언맨’ 주인공 토니 스타크의 연구실에는 조수 로봇 ‘더미(DUM-E)’가 있다. 의역하면 ‘멍청이’라는 뜻이지만 영화 속에서 더미는 나름 똑똑한 편이다. 토니 스타크가 명령하는 대로 슈트 부품을 조립하거나 실험 장면을 따라다니면서 녹화한다. 필요한 부품을 알아서 찾아주거나 신소재를 개발할 때 도움을 주기도 한다.
영화 ‘아이언맨’ 속 조수 로봇 ‘더미'(왼쪽) (출처 : Marvel)
토니가 더미에게 일을 시킬 땐 사람을 대하듯 자연스럽게 이야기한다. 프로그램을 다루는 것처럼 명령 내용과 실행 과정을 일일이 풀어 설명하지 않는다. 그럼에도 더미는 제대로 알아듣고 그대로 실행한다.
이런 모습은 공상 영화 속 장면일 뿐이라며 진지하게 받아들이진 않았다. 하지만 더미처럼 명령을 알아듣고 자의적으로 판단하는 로봇이 실제 등장할 가능성이 제시됐다.
■ 구글, 로봇용 인공지능 ‘RT-2’ 공개
RT-2를 탑재한 로봇 (출처 : Google DeepMind)
7월 28일(현지시간) 인공지능(AI) 연구 기업 ‘구글 딥마인드(Google DeepMind)’는 로봇용 대용량 시각언어행동(VLA) 모델 ‘RT-2’를 공개했다.
RT-2는 최근 잘 알려진 ‘챗GPT’나 ‘빙(Bing) 챗봇’처럼 대규모 데이터를 기반으로 학습한다. 차이는 학습하는 데이터 타입이다. 다른 AI들이 문자로 된 데이터를 중점적으로 학습하는 반면 RT-2는 문자뿐만 아니라 이미지까지 학습한다. 훈련에는 PaLI-X와 PaLM-E라는 두 가지 모델을 사용한다. 전자는 온라인에서 설명이 첨부된 이미지를 찾아 학습에 활용하는 모델, 후자는 언어를 해석하는 모델이다.
RT-2 (출처 : Google DeepMind)
그래서 RT-2는 카메라가 달린 로봇에 사용하기 적합하다. 카메라로 주변 모습을 파악하고 물건을 인식할 수 있다. 사용자가 명령한 내용이 어떤 물건을 대상으로 하는지, 어떻게 수행하면 될지 판단하는 게 가능하다. 로봇이 수집한 데이터를 그대로 학습에 활용하는 것도 가능하다.
RT-2는 구글 딥마인드가 지난해 공개했던 RT-1의 업그레이드 버전이다. RT-1은 로봇이 물건을 옮기거나 문을 열게 하는 등 간단한 작업을 시킬 수 있었다. 하지만 작업 방법을 일일이 로봇에게 가르쳐야 했다. 이 방식은 굉장히 비효율적이었다. 문을 여는 법만 학습한 로봇은 창문을 열지 못했다. 창문을 열게 하려면 창문을 여는 방법을 로봇에게 다시 학습시켜야 했다.
RT-2에는 이런 번거로운 과정이 없다. 작업 방법을 일일이 학습시키는 대신 대규모 언어 모델(LLM)과 웹 데이터를 통해 로봇이 스스로 문제 해결법을 찾아 실행케 했다. 로봇에게 알려주지 않은 명령을 해도 온라인으로 해결법을 스스로 찾고 판단해 수행한다. 아무것도 모르는 로봇에게 “창문을 열어라”라는 명령을 하면 창문이 무엇인지, 창문이 어디 있는지, 창문을 어떻게 여는지 배운 뒤 그대로 수행한다.
명령에 따라 케첩 병을 파란색 큐브 근처로 옮기는 모습 (출처 : Google DeepMind)
구글 딥마인드는 RT-2의 학습 능력을 보여주는 사례를 소개했다. 테이블 위에 파란색 큐브와 소스 병 여러 개가 놓여있다. 로봇이 사전 학습한 데이터에는 파란색 큐브 정보만 들어있었다. 이 로봇에게 케첩을 파란색 큐브 쪽으로 밀라고 명령했다. 그러자 로봇은 카메라로 테이블 위 물체들을 인식한 다음 케첩이 들어있는 병을 찾아 파란색 큐브 근처로 옮겼다.
■ 눈치 빠른 조수 부리는 느낌…대충 명령해도 잘 알아들어
RT-1은 어린아이를 가르치는 것과 같다. 시킨 일을 수행하려면 어떤 것을 준비하고 어떻게 풀어나가야 할지 하나부터 열까지 미리 알려줘야 한다. 알려준 내용을 다른 분야에 활용하길 기대하기도 어렵다. 그렇다 보니 발생할 수 있는 모든 경우의 수를 미리 예상하고 준비시켜야 한다.
RT-2는 배우지 않은 요소가 들어간 명령도 해석해 수행한다 (출처 : Google DeepMind)
반면 RT-2는 어른을 가르치는 데 비유할 수 있다. 작업을 시키면 어떤 준비물이 필요한지, 어떻게 해결할 것인지 스스로 판단한다. 모르는 내용은 인터넷으로 검색해 찾아본다. RT-2가 명령을 듣고 해석한 다음 스스로 판단해 수행하는 과정과 일치한다.
로봇에 RT-2를 적용하면 사용하기도 쉽다. 명령한 내용에 로봇이 모르는 단어가 포함되면 스스로 온라인으로 찾아 학습하기 때문이다.
예를 들어 선풍기가 뭔지 모르는 로봇에게 “너무 춥다”라고 말하는 상황을 상상해 보자. 명령을 들은 로봇이 카메라를 통해 주변을 스캔하고, 웹 데이터를 분석해 근처에 있는 선풍기가 냉방 기구라는 것을 인지한다. 그다음 날개가 돌아가는지 확인해 선풍기 전원 상태를 파악한다. 만약 선풍기가 켜져 있다면 정지 버튼을 찾아 누른다. 비슷한 원리로, 로봇에게 “목이 마르다”라고 말하면 로봇이 냉장고에서 물을 꺼내올 수도 있다.
RT-2의 명령 수행 성공 확률은 기존 방식의 2배 이상이다 (출처 : Google DeepMind)
구글 딥마인드는 로봇이 모르는 내용을 웹 데이터에서 찾아 학습한 사례도 여럿 선보였다. 로봇이 학습한 데이터에 없는 물체를 집거나 옮기라는 명령을 제대로 수행하는 모습을 볼 수 있다. 구글 딥마인드는 RT-2의 성능이 RT-1 대비 3배 이상 향상됐다고 주장했다. 또한 기호를 이해하는 능력과 추론, 사람 인식, 일반적인 작업 등 4가지 분야의 명령 수행 성공 확률이 기존보다 2배 이상 높아졌다고 밝혔다.
RT-2 활용 분야는 무궁무진하다. 필요한 물건을 묘사하면 창고에서 찾아다 주는 로봇이나 집안일을 알아서 하는 로봇을 만드는 것도 가능하다. 학습 능력이 있는 로봇 조수인 셈이다. 토니 스타크의 조수 로봇 ‘더미’처럼 사용자가 내린 명령을 스스로 해석하고 실행하는 게 가능하다. 장래에는 영화처럼 사람 대신 로봇들이 일사불란하게 일하는 모습을 보게 될지도 모른다.
테크플러스 에디터 이병찬
tech-plus@naver.com
댓글0