Stanford e Meta avançam em direção à IA que atua como humano com o novo modelo de interação 'CHOIS'

Lenovo lança novo serviço de ponta TruScale para levar IA e ML para empresas físicas

15 de janeiro de 2024

SandboxAQ revela Sandwich, uma meta-biblioteca de código aberto de algoritmos criptográficos

15 de janeiro de 2024

Publicado por Douglas S. em 15 de janeiro de 2024

Categorias

Network

Como funciona

O sistema CHOIS destaca-se pela sua abordagem única para sintetizar interações homem-objeto em um ambiente 3D. Basicamente, o CHOIS usa um modelo de difusão condicional, que é um tipo de modelo generativo que pode simular sequências detalhadas de movimento.

Ao receber um estado inicial das posições humanas e dos objetos, juntamente com uma descrição linguística da tarefa desejada, o CHOIS gera uma sequência de movimentos que culminam na conclusão da tarefa.

Por exemplo, se a instrução é aproximar um abajur de um sofá, CHOIS entende esta diretriz e cria uma animação realista de um avatar humano pegando o abajur e colocando-o perto do sofá.

O que torna o CHOIS particularmente único é o uso de waypoints de objetos esparsos e descrições de linguagem para guiar essas animações. Os waypoints atuam como marcadores para pontos-chave na trajetória do objeto, garantindo que o movimento não seja apenas fisicamente plausível, mas também alinhado com o objetivo de alto nível delineado pela entrada de linguagem.

A singularidade do CHOIS também reside na sua integração avançada da compreensão da linguagem com a simulação física. Os modelos tradicionais muitas vezes lutam para correlacionar a linguagem com ações espaciais e físicas, especialmente num horizonte de interação mais longo, onde muitos fatores devem ser considerados para manter o realismo.

CHOIS preenche esta lacuna interpretando a intenção e o estilo por trás das descrições da linguagem e depois traduzindo-os numa sequência de movimentos físicos que respeitam as restrições tanto do corpo humano como do objeto envolvido.

O sistema é especialmente inovador porque garante que os pontos de contato, como mãos tocando um objeto, sejam representados com precisão e que o movimento do objeto seja consistente com as forças exercidas pelo avatar humano. Além disso, o modelo incorpora funções de perda especializadas e termos de orientação durante as fases de formação e geração para impor estas restrições físicas, o que representa um passo significativo na criação de uma IA que possa compreender e interagir com o mundo físico de uma forma semelhante à humana.

Implicações para computação gráfica, IA e robótica

As implicações do sistema CHOIS na computação gráfica são profundas, particularmente no domínio da animação e da realidade virtual. Ao permitir que a IA interprete instruções em linguagem natural para gerar interações realistas entre humanos e objetos, o CHOIS poderia reduzir drasticamente o tempo e o esforço necessários para animar cenas complexas.

Os animadores poderiam usar essa tecnologia para criar sequências que tradicionalmente exigiriam uma meticulosa animação de quadros-chave, que é ao mesmo tempo trabalhosa e demorada. Além disso, em ambientes de realidade virtual, o CHOIS poderia levar a experiências mais imersivas e interativas, uma vez que os utilizadores poderiam comandar personagens virtuais através de linguagem natural, observando-os executar tarefas com precisão realista. Esse nível elevado de interação pode transformar as experiências de RV de eventos rígidos e programados em ambientes dinâmicos que respondem de forma realista à entrada do usuário.

Nas áreas de IA e robótica, o CHOIS representa um passo gigante em direção a sistemas mais autônomos e conscientes do contexto. Os robôs, muitas vezes limitados por rotinas pré-programadas, poderiam usar um sistema como o CHOIS para compreender melhor o mundo real e executar tarefas descritas em linguagem humana.

Isto pode ser particularmente transformador para robôs de serviço em ambientes de saúde, hospitalidade ou domésticos, onde a capacidade de compreender e executar uma ampla gama de tarefas num espaço físico é crucial.

Para a IA, a capacidade de processar informação linguística e visual simultaneamente para executar tarefas é um passo mais próximo de alcançar um nível de compreensão situacional e contextual que tem sido, até agora, um atributo predominantemente humano. Isto poderá levar a sistemas de IA que sejam assistentes mais úteis em tarefas complexas, capazes de compreender não apenas o “quê”, mas também o “como” das instruções humanas, adaptando-se a novos desafios com um nível de flexibilidade nunca antes visto.

Resultados promissores e perspectivas futuras

No geral, os pesquisadores de Stanford e Meta fizeram progressos importantes em um problema extremamente desafiador na interseção entre visão computacional, PNL (processamento de linguagem natural) e robótica.

A equipe de pesquisa acredita que seu trabalho é um passo significativo na criação de sistemas avançados de IA que simulam comportamentos humanos contínuos em diversos ambientes 3D. Também abre a porta para futuras pesquisas sobre a síntese de interações homem-objeto a partir de cenas 3D e entrada de linguagem, levando potencialmente a sistemas de IA mais sofisticados no futuro.

A missão da VentureBeat é ser uma praça digital para os tomadores de decisões técnicas obterem conhecimento sobre tecnologia empresarial transformadora e realizarem transações. Conheça nossos Briefings.

Douglas S.

Comments are closed.

Stanford e Meta avançam em direção à IA que atua como humano com o novo modelo de interação ‘CHOIS’

Lenovo lança novo serviço de ponta TruScale para levar IA e ML para empresas físicas

SandboxAQ revela Sandwich, uma meta-biblioteca de código aberto de algoritmos criptográficos

Lenovo lança novo serviço de ponta TruScale para levar IA e ML para empresas físicas

SandboxAQ revela Sandwich, uma meta-biblioteca de código aberto de algoritmos criptográficos

Como funciona

Implicações para computação gráfica, IA e robótica

Resultados promissores e perspectivas futuras

Douglas S.

Postagens relacionadas

Quer recursos matadores? Promova a comunicação entre desenvolvedores e usuários

Instale NordVPN no Linux para uma camada adicional de segurança

Qual é o futuro dos livros-razão distribuídos?