![O novo AI SALMONN do criador do TikTok entende todo o áudio, não apenas músicas e vozes](https://optimuscloud.com.br/wp-content/uploads/2024/01/O-novo-AI-SALMONN-do-criador-do-TikTok-entende-todo.png)
O novo AI SALMONN do criador do TikTok entende todo o áudio, não apenas músicas e vozes
17 de janeiro de 2024![Dropbox apresenta produtos generativos alimentados por IA para facilitar o trabalho de conhecimento](https://optimuscloud.com.br/wp-content/uploads/2024/01/Dropbox-apresenta-produtos-generativos-alimentados-por-IA-para-facilitar-o.jpg)
Dropbox apresenta produtos generativos alimentados por IA para facilitar o trabalho de conhecimento
17 de janeiro de 2024Um dos grandes desafios da robótica é a quantidade de esforço que deve ser investido no treinamento de modelos de aprendizado de máquina para cada robô, tarefa e ambiente. Agora, um novo projeto do Google DeepMind e 33 outras instituições de pesquisa visa enfrentar esse desafio criando um sistema de IA de uso geral que pode funcionar com diferentes tipos de robôs físicos e realizar muitas tarefas.
“O que observamos é que os robôs são grandes especialistas, mas pobres generalistas”, disse Pannag Sanketi, engenheiro sênior de software do Google Robotics, ao VentureBeat. “Normalmente, você precisa treinar um modelo para cada tarefa, robô e ambiente. Mudar uma única variável muitas vezes requer começar do zero.”
Para superar isso e tornar muito mais fácil e rápido treinar e implantar robôs, o novo projeto, denominado Open-X Embodiment, introduz dois componentes principais: um conjunto de dados contendo dados sobre vários tipos de robôs e uma família de modelos capazes de transferir habilidades através de um ampla gama de tarefas. Os pesquisadores testaram os modelos em laboratórios de robótica e em diversos tipos de robôs, obtendo resultados superiores em comparação aos métodos comumente utilizados para treinamento de robôs.
Combinando dados de robótica
Normalmente, cada tipo distinto de robô, com seu conjunto único de sensores e atuadores, requer um modelo de software especializado, da mesma forma que o cérebro e o sistema nervoso de cada organismo vivo evoluíram para se sintonizarem com o corpo e o ambiente desse organismo.
O projeto Open X-Embodiment nasceu da intuição de que a combinação de dados de vários robôs e tarefas poderia criar um modelo generalizado superior aos modelos especializados, aplicável a todos os tipos de robôs. Este conceito foi parcialmente inspirado em grandes modelos de linguagem (LLMs), que, quando treinados em grandes conjuntos de dados gerais, podem igualar ou até superar modelos menores treinados em conjuntos de dados estreitos e específicos de tarefas. Surpreendentemente, os investigadores descobriram que o mesmo princípio se aplica à robótica.
Para criar o conjunto de dados Open X-Embodiment, a equipe de pesquisa coletou dados de 22 incorporações de robôs em 20 instituições de vários países. O conjunto de dados inclui exemplos de mais de 500 habilidades e 150.000 tarefas em mais de 1 milhão de episódios (um episódio é uma sequência de ações que um robô realiza cada vez que tenta realizar uma tarefa).
Os modelos que acompanham são baseados no transformador, a arquitetura de aprendizagem profunda também usada em grandes modelos de linguagem. O RT-1-X é construído com base no Robotics Transformer 1 (RT-1), um modelo multitarefa para robótica do mundo real em escala. O RT-2-X é baseado no sucessor do RT-1, RT-2, um modelo de visão-linguagem-ação (VLA) que aprendeu com robótica e dados da web e pode responder a comandos de linguagem natural.
Os pesquisadores testaram o RT-1-X em várias tarefas em cinco laboratórios de pesquisa diferentes em cinco robôs comumente usados. Comparado aos modelos especializados desenvolvidos para cada robô, o RT-1-X teve uma taxa de sucesso 50% maior em tarefas como pegar e mover objetos e abrir portas. O modelo também foi capaz de generalizar as suas capacidades para diferentes ambientes, em oposição a modelos especializados que são adequados para um ambiente visual específico. Isto sugere que um modelo treinado em um conjunto diversificado de exemplos supera os modelos especializados na maioria das tarefas. Segundo o artigo, o modelo pode ser aplicado a uma ampla gama de robôs, desde braços robóticos até quadrúpedes.
“Quem já fez pesquisas em robótica sabe como isso é notável: tais modelos ‘nunca’ funcionam na primeira tentativa, mas este funcionou”, escreve Sergey Levine, professor associado da UC Berkeley e coautor do artigo. .
O RT-2-X teve três vezes mais sucesso do que o RT-2 em habilidades emergentes, tarefas novas que não foram incluídas no conjunto de dados de treinamento. Em particular, o RT-2-X apresentou melhor desempenho em tarefas que requerem compreensão espacial, como dizer a diferença entre mover uma maçã Perto de pano em vez de colocá-lo no pano.
“Nossos resultados sugerem que o co-treinamento com dados de outras plataformas imbui o RT-2-X com habilidades adicionais que não estavam presentes no conjunto de dados original, permitindo-lhe realizar novas tarefas”, escrevem os pesquisadores em uma postagem no blog que anuncia o Open X. e RT-X.
Dando passos futuros para a pesquisa em robótica
Olhando para o futuro, os cientistas estão a considerar direções de investigação que possam combinar estes avanços com os conhecimentos do RoboCat, um modelo de auto-aperfeiçoamento desenvolvido pela DeepMind. O RoboCat aprende a realizar uma variedade de tarefas em diferentes braços robóticos e depois gera automaticamente novos dados de treinamento para melhorar seu desempenho.
Outra direção potencial, de acordo com Sanketi, poderia ser investigar mais detalhadamente como diferentes misturas de conjuntos de dados podem afetar a generalização de incorporação cruzada e como a generalização melhorada se materializa.
A equipe abriu o código-fonte do conjunto de dados Open X-Embodiment e de uma versão pequena do modelo RT-1-X, mas não do modelo RT-2-X.
“Acreditamos que estas ferramentas irão transformar a forma como os robôs são treinados e acelerar este campo de investigação”, disse Sanketi. “Esperamos que o acesso aberto aos dados e o fornecimento de modelos seguros, mas limitados, reduzam as barreiras e acelerem a investigação. O futuro da robótica depende de permitir que os robôs aprendam uns com os outros e, o mais importante, de permitir que os pesquisadores aprendam uns com os outros.”
A missão da VentureBeat é ser uma praça digital para os tomadores de decisões técnicas obterem conhecimento sobre tecnologia empresarial transformadora e realizarem transações. Conheça nossos Briefings.