OpenAI 연구소 개발, 자율학습으로 기능 습득 후 스스로 해결능력 갖춰

▲openAI가 개발한 로봇 팔 닥틸(사진=트위터 캡처)©AI타임스
▲openAI가 개발한 로봇 팔 닥틸(사진=트위터 캡처)©AI타임스

(AI타임스=윤광제 기자) 인공지능 연구소 OpenAI가 범용, 자율학습 로봇을 개발하기 위한 새로운 이정표를 달성했다.

이 연구소의 로봇 부서는 작년에 처음 개발된 휴머노이드 로봇 손인 Dactyl(이하 닥틸)이 루빅스 큐브를 한 손으로 푸는 법을 배웠다고 밝혔다. OpenAI는 이 위업에 대해 로봇 부록과 자체 AI 소프트웨어 모두를 위한 도약으로 보고 있다.

이 소프트웨어는 닥틸이 가상 시뮬레이션을 사용해 새로운 작업을 학습한 후 극복해야 할 실제적이고 물리적인 과제를 해결해준다.

닥틸의 새로운 재능을 보여주는 데모 비디오에서, 로봇 손이 서투르지만 정확한 조작으로 완전한 큐브 해소를 향해 더듬거리는 것을 볼 수 있다. 많은 시간이 걸리지만, 닥틸은 결국 퍼즐을 풀었다.

특히 루빅스 큐브 풀기에 나서는 인간 선수들이 몇 초 만에 큐브를 풀 때 보여주는 엄청난 속도와 날렵한 손놀림과 비교하면 닥틸의 동작은 눈에 띄게 유동성이 없어 보이며 실제로 다소 불안한 모습을 연출한다.

그러나 OpenAI는 “닥틸의 업적은 AI와 로봇 산업의 광범위한 목표 즉, 수개월에서 수년간의 실제 시간 동안 훈련할 필요 없이, 그리고 특별히 프로그램할 필요 없이 다양한 실제 작업을 수행하는 법을 배울 수 있는 로봇에 한 걸음 더 가까이 다가서게 했다는 점”이라고 주장했다.

또 OpenAI 연구원인 피터 웰린더는 “이미 많은 로봇들이 루빅스 큐브를 매우 빠르게 해결했다는 것을 알고 있다"고 전제한 뒤 "다만 그 로봇들이 그곳에서 무엇을 했는지와 우리 로봇이 여기서 무엇을 하고 있는지에 대한 중요한 차이점은 그 로봇들은 매우 목적에 맞게 제작됐다는 것이다”라고 말했다.

그는 “그러나 그 로봇들은 큐브를 푸는데 특화돼 있지만 닥틸과 같은 접근 방식을 이용해 문제를 해결할 수 있는 로봇은 없다. OpenAI의 로봇팀이 말하는 AI의 목표는 매우 다르다"면서 "우리는 범용 로봇을 만들려고 하고 있다. 인간의 손은 특정한 업무뿐만이 아니라 다양한 일을 할 수 있는데, 로봇 또한 인간과 유사하게 그런 일을 할 수 있는지, 그리고 인간 활동의 범위내에서 적용될 수 있는 훨씬 더 일반적인 로봇을 만드려고 하고 있다"고 덧붙였다.

지난 몇 년 동안 인간의 손과 마음의 한계를 훨씬 넘어 루빅스 큐브 문제를 해결하기 위해 만들어진 일련의 로봇들이 있다.

2016년 반도체 업체 인피니온이 초인적인 속도로 루빅스 큐브를 풀 수 있는 로봇을 개발했고, 그 로봇은 1초도 안 돼 해결했다. 그것은 당시 기록이었던 5초 미만의 세계 기록(단일 세계기록 중국의 Yusheng Du의 3.47초)을 깼다.

2년 후, MIT가 개발한 기계가 0.4초도 안 되는 시간에 큐브를 풀었다. 2018년 말 일본 유튜브 채널 휴먼컨트롤러(Human Controller)는 프로그램 가능한 서보 모터에 부착된 3D 프린팅 코어를 이용해 자체 개발한 루빅스 큐브까지 개발했다.

매킨스는 지난 몇 년 동안 서퍼휴먼에서 루빅스 큐브를 분리하는 데 도움이 됐다. 즉, 하나의 특정 작업을 위해 제작되고 가능한 한 효율적으로 그 작업을 수행하도록 프로그램된 로봇은 인간에게 가장 적합할 수 있으며, 루빅의 큐브 해결은 소프트웨어가 오래전에 습득한 것이다.

그런 이유로 큐브를 해결하기 위한 로봇을 개발하는 것, 심지어 휴머노이드 로봇도 그 자체로 놀랄만한 것은 아니다. 비록 느린 속도지만 닥틸도 작동한다는 것이다.

그러나 OpenAI의 닥틸 로봇과 이를 작동시키는 소프트웨어는 전용 큐브해결 로봇과는 디자인과 용도가 크게 다르다.

웰린더가 말한 것처럼, 오픈AI가 현재 진행 중인 로봇 작업은 좁은 작업에서 우수한 결과를 얻기 위한 것이 아니며, 이는 단지 더 나은 로봇을 개발하고 그에 따라 프로그래밍하기만 하면 되기 때문이다. 그것은 현대의 인공지능 없이도 할 수 있다.

대신, 닥틸은 인간이 하는 것처럼 새로운 작업에 접근하는 자기 학습 로봇의 손으로서 처음부터 개발된다. 이것은 소프트웨어를 사용해서 훈련된 것인데, 그 소프트웨어는 현재 초보적인 방법으로, 인간이 어렸을 때 본능적으로 손을 사용하는 것을 배우도록 도와주는 수백만 년의 진화를 복제하기 위한 것이다.

이런 상황이라면 언젠가는 인류가 공상과학소설에서만 알고 있는 휴머노이드 로봇 세계가 펼쳐질 것이다. 다만 인류를 위험에 빠뜨리지 않고, 안전하게 사회 속에서 작동하며, 도시거리와 공장 바닥처럼 혼란스러운 환경에서도 다양한 임무를 수행할 수 있는 로봇을 개발하기를 희망하고 있는 것이다.

 OpenAI는 루빅스 큐브를 한 손으로 푸는 방법을 위해 닥틸을 명시적으로 프로그램하지 않았다. 연구진은 또한 로봇 손이 스스로 그러한 움직임을 분별하기를 원했기 때문에 손이 수행할 수 있는 개별 동작을 프로그래밍하지 않기로 결정했다. 대신 로봇팀은 스크램블 큐브(scrambled 큐브)를 해결한다는 최종 목표를 두고 손의 기본 소프트웨어에 부여했고, 현대 AI(특히 강화 학습이라는 인센티브 기반 심층 학습의 브랜드)를 사용해 스스로 이를 파악하는 데 도움을 주었다.

이로써 로봇은 단순히 특정 목적을 위해 프로그래밍 되는 시대를 지나 일정 방식의 학습이 이뤄지면 반복 숙달을 통해 점점 능숙해지는 단계의 로봇시대로 한단계 더 진화하게 됐다.