A nova IA ‘notável’ da DeepMind controla robôs de todos os tipos

O novo AI SALMONN do criador do TikTok entende todo o áudio, não apenas músicas e vozes

17 de janeiro de 2024

Dropbox apresenta produtos generativos alimentados por IA para facilitar o trabalho de conhecimento

17 de janeiro de 2024

Publicado por Douglas S. em 17 de janeiro de 2024

Categorias

Network

Combinando dados de robótica

Normalmente, cada tipo distinto de robô, com seu conjunto único de sensores e atuadores, requer um modelo de software especializado, da mesma forma que o cérebro e o sistema nervoso de cada organismo vivo evoluíram para se sintonizarem com o corpo e o ambiente desse organismo.

O projeto Open X-Embodiment nasceu da intuição de que a combinação de dados de vários robôs e tarefas poderia criar um modelo generalizado superior aos modelos especializados, aplicável a todos os tipos de robôs. Este conceito foi parcialmente inspirado em grandes modelos de linguagem (LLMs), que, quando treinados em grandes conjuntos de dados gerais, podem igualar ou até superar modelos menores treinados em conjuntos de dados estreitos e específicos de tarefas. Surpreendentemente, os investigadores descobriram que o mesmo princípio se aplica à robótica.

Para criar o conjunto de dados Open X-Embodiment, a equipe de pesquisa coletou dados de 22 incorporações de robôs em 20 instituições de vários países. O conjunto de dados inclui exemplos de mais de 500 habilidades e 150.000 tarefas em mais de 1 milhão de episódios (um episódio é uma sequência de ações que um robô realiza cada vez que tenta realizar uma tarefa).

Os modelos que acompanham são baseados no transformador, a arquitetura de aprendizagem profunda também usada em grandes modelos de linguagem. O RT-1-X é construído com base no Robotics Transformer 1 (RT-1), um modelo multitarefa para robótica do mundo real em escala. O RT-2-X é baseado no sucessor do RT-1, RT-2, um modelo de visão-linguagem-ação (VLA) que aprendeu com robótica e dados da web e pode responder a comandos de linguagem natural.

Os pesquisadores testaram o RT-1-X em várias tarefas em cinco laboratórios de pesquisa diferentes em cinco robôs comumente usados. Comparado aos modelos especializados desenvolvidos para cada robô, o RT-1-X teve uma taxa de sucesso 50% maior em tarefas como pegar e mover objetos e abrir portas. O modelo também foi capaz de generalizar as suas capacidades para diferentes ambientes, em oposição a modelos especializados que são adequados para um ambiente visual específico. Isto sugere que um modelo treinado em um conjunto diversificado de exemplos supera os modelos especializados na maioria das tarefas. Segundo o artigo, o modelo pode ser aplicado a uma ampla gama de robôs, desde braços robóticos até quadrúpedes.

“Quem já fez pesquisas em robótica sabe como isso é notável: tais modelos ‘nunca’ funcionam na primeira tentativa, mas este funcionou”, escreve Sergey Levine, professor associado da UC Berkeley e coautor do artigo. .

Notavelmente, mesmo o modelo RT-1-X menor melhorou em todos os aspectos *em comparação com o modelo que cada laboratório estava usando para seus próprios experimentos*! Qualquer pessoa que tenha feito pesquisas em robótica sabe como isso é notável: tais modelos “nunca” funcionam na primeira tentativa, mas este funcionou. pic.twitter.com/jSdKT1Q5BH

-Sergey Levine (@svlevine) 3 de outubro de 2023

O RT-2-X teve três vezes mais sucesso do que o RT-2 em habilidades emergentes, tarefas novas que não foram incluídas no conjunto de dados de treinamento. Em particular, o RT-2-X apresentou melhor desempenho em tarefas que requerem compreensão espacial, como dizer a diferença entre mover uma maçã Perto de pano em vez de colocá-lo no pano.

“Nossos resultados sugerem que o co-treinamento com dados de outras plataformas imbui o RT-2-X com habilidades adicionais que não estavam presentes no conjunto de dados original, permitindo-lhe realizar novas tarefas”, escrevem os pesquisadores em uma postagem no blog que anuncia o Open X. e RT-X.

Dando passos futuros para a pesquisa em robótica

Olhando para o futuro, os cientistas estão a considerar direções de investigação que possam combinar estes avanços com os conhecimentos do RoboCat, um modelo de auto-aperfeiçoamento desenvolvido pela DeepMind. O RoboCat aprende a realizar uma variedade de tarefas em diferentes braços robóticos e depois gera automaticamente novos dados de treinamento para melhorar seu desempenho.

Outra direção potencial, de acordo com Sanketi, poderia ser investigar mais detalhadamente como diferentes misturas de conjuntos de dados podem afetar a generalização de incorporação cruzada e como a generalização melhorada se materializa.

A equipe abriu o código-fonte do conjunto de dados Open X-Embodiment e de uma versão pequena do modelo RT-1-X, mas não do modelo RT-2-X.

“Acreditamos que estas ferramentas irão transformar a forma como os robôs são treinados e acelerar este campo de investigação”, disse Sanketi. “Esperamos que o acesso aberto aos dados e o fornecimento de modelos seguros, mas limitados, reduzam as barreiras e acelerem a investigação. O futuro da robótica depende de permitir que os robôs aprendam uns com os outros e, o mais importante, de permitir que os pesquisadores aprendam uns com os outros.”

A missão da VentureBeat é ser uma praça digital para os tomadores de decisões técnicas obterem conhecimento sobre tecnologia empresarial transformadora e realizarem transações. Conheça nossos Briefings.