Robô ALOHA aprende com humanos a cozinhar, limpar e lavar roupa

Atropos Health aproveita a IA para democratizar o acesso a evidências do mundo real na área da saúde

15 de janeiro de 2024

Novo CarCast: As métricas são importantes? Além disso, ponderando a estratégia de IA e o significado da vida

15 de janeiro de 2024

Publicado por Douglas S. em 15 de janeiro de 2024

Categorias

Network

Limites dos sistemas robóticos atuais

A maioria das tarefas de manipulação robótica concentra-se na manipulação de mesa. Isto inclui uma onda recente de modelos que foram construídos com base em transformadores e modelos de difusão, arquiteturas amplamente utilizadas em IA generativa.

No entanto, muitos destes modelos carecem da mobilidade e da destreza necessárias para tarefas geralmente úteis. Muitas tarefas em ambientes cotidianos exigem mobilidade coordenada e capacidades de manipulação hábeis.

“Com graus adicionais de liberdade adicionados, a interação entre os braços e as ações de base pode ser complexa, e um pequeno desvio na pose de base pode levar a grandes desvios na pose do efetor final do braço”, escrevem os pesquisadores de Stanford em seu artigo, acrescentando que trabalhos anteriores não forneceram “uma solução prática e convincente para manipulação móvel bimanual, tanto do ponto de vista de hardware quanto de aprendizagem”.

ALOHA móvel

O novo sistema desenvolvido por pesquisadores de Stanford baseia-se no ALOHA, um sistema de teleoperação de corpo inteiro e de baixo custo para coleta de dados de manipulação móvel bimanual.

Um operador humano demonstra tarefas manipulando os braços do robô através de um controle teleoperado. O sistema captura os dados de demonstração e os utiliza para treinar um sistema de controle por meio de aprendizagem de imitação ponta a ponta.

Mobile ALOHA amplia o sistema montando-o em uma base com rodas. Ele foi projetado para fornecer uma solução econômica para o treinamento de sistemas robóticos. Toda a configuração, que inclui webcams e um laptop com GPU de consumo, custa cerca de US$ 32 mil, o que é muito mais barato do que robôs bimanuais disponíveis no mercado, que podem custar até US$ 200 mil.

Configuração móvel ALOHA (fonte: arxiv)

O Mobile ALOHA foi projetado para teleoperar todos os graus de liberdade simultaneamente. O operador humano é amarrado ao sistema pela cintura e o conduz pelo ambiente de trabalho enquanto opera os braços com controladores. Isso permite que o sistema de controle do robô aprenda simultaneamente o movimento e outros comandos de controle. Depois de reunir informações suficientes, o modelo pode repetir a sequência de tarefas de forma autônoma.

O sistema de teleoperação é capaz de várias horas de uso consecutivo. Os resultados são impressionantes e mostram que uma receita de treinamento simples permite que o sistema aprenda tarefas complexas de manipulação móvel.

As demonstrações mostram o robô treinado cozinhando uma refeição de três pratos com tarefas delicadas, como quebrar ovos, picar alho, despejar líquido, desembalar vegetais e virar frango em uma frigideira.

O Mobile ALOHA também pode realizar uma variedade de tarefas domésticas, incluindo regar plantas, usar aspirador, carregar e descarregar uma máquina de lavar louça, retirar bebidas da geladeira, abrir portas e operar máquinas de lavar.

Aprendizagem por imitação e co-treinamento

Como muitos trabalhos recentes em robótica, Mobile ALOHA aproveita transformadores, a arquitetura usada em grandes modelos de linguagem. O sistema ALOHA original usava uma arquitetura chamada Action Chunking with Transformers (ACT), que obtém imagens de vários pontos de vista e posições conjuntas como entrada e prevê uma sequência de ações.

Ação Chunking com Transformadores (ACT) (fonte: Página da ALOHA)

O Mobile ALOHA estende esse sistema adicionando sinais de movimento ao vetor de entrada. Esta formulação permite que o Mobile ALOHA reutilize algoritmos anteriores de aprendizagem de imitação profunda com alterações mínimas.

“Observamos que simplesmente concatenar as ações de base e de braço e depois treinar por meio de aprendizagem por imitação direta pode produzir um desempenho forte”, escrevem os pesquisadores. “Especificamente, concatenamos as posições conjuntas 14-DoF do ALOHA com a velocidade linear e angular da base móvel, formando um vetor de ação de 16 dimensões.”

O trabalho também se beneficia do sucesso de métodos recentes que pré-treinam modelos em diversos conjuntos de dados de robôs de outros projetos. Digno de nota especial é o RT-X, um projeto da DeepMind e 33 instituições de pesquisa, que combinou vários conjuntos de dados de robótica para criar sistemas de controle que poderiam generalizar muito além de seus dados de treinamento e morfologias de robôs.

“Apesar das diferenças nas tarefas e na morfologia, observamos transferência positiva em quase todas as tarefas de manipulação móvel, alcançando desempenho e eficiência de dados equivalentes ou melhores do que políticas treinadas usando apenas dados Mobile ALOHA”, escrevem os pesquisadores.

O uso de dados existentes permitiu que os pesquisadores treinassem o Mobile ALOHA para tarefas complexas com muito poucas demonstrações humanas

“Com o co-treinamento, somos capazes de alcançar mais de 80% de sucesso nessas tarefas com apenas 50 demonstrações humanas por tarefa, com uma média de melhoria absoluta de 34% em comparação com nenhum co-treinamento”, escrevem os pesquisadores.

Não está pronto para produção

Apesar dos resultados impressionantes, o Mobile ALOHA tem desvantagens. Por exemplo, seu volume e formato pesado não o tornam adequado para ambientes apertados.

No futuro, os pesquisadores planejam melhorar o sistema adicionando mais graus de liberdade e reduzindo o volume do robô.

É importante notar também que este não é um sistema totalmente autônomo que possa aprender a explorar novos ambientes por conta própria. Ainda requer demonstrações completas por parte de operadores humanos em seu ambiente, embora aprenda as tarefas com menos exemplos do que os métodos anteriores, graças ao seu sistema de co-treinamento.

Os pesquisadores irão explorar mudanças no modelo de IA que permitirão ao robô se autoaperfeiçoar e adquirir novos conhecimentos.
Dada a tendência recente de treinamento de sistemas de controle de IA em diferentes conjuntos de dados e morfologias, este trabalho pode acelerar ainda mais o desenvolvimento de robôs móveis versáteis. E, idealmente, levar a robôs úteis para empresas e consumidores, um campo que está se aquecendo rapidamente graças ao trabalho de outros pesquisadores e empresas como a Tesla, com seu robô humanóide Optimus, ainda em desenvolvimento, e a Hyundai, com sua divisão Boston Dynamics, que oferece o cão robótico Spot à venda por cerca de US$ 74.000.

A missão da VentureBeat é ser uma praça digital para os tomadores de decisões técnicas obterem conhecimento sobre tecnologia empresarial transformadora e realizarem transações. Conheça nossos Briefings.