![Lenovo lança novo serviço de ponta TruScale para levar IA e ML para empresas físicas](https://optimuscloud.com.br/wp-content/uploads/2024/01/Lenovo-lanca-novo-servico-de-ponta-TruScale-para-levar-IA.png)
Lenovo lança novo serviço de ponta TruScale para levar IA e ML para empresas físicas
15 de janeiro de 2024![SandboxAQ revela Sandwich, uma meta-biblioteca de código aberto de algoritmos criptográficos](https://optimuscloud.com.br/wp-content/uploads/2024/01/SandboxAQ-revela-Sandwich-uma-meta-biblioteca-de-codigo-aberto-de-algoritmos.jpg)
SandboxAQ revela Sandwich, uma meta-biblioteca de código aberto de algoritmos criptográficos
15 de janeiro de 2024Pesquisadores da Universidade de Stanford e do laboratório Facebook AI Research (FAIR) da Meta desenvolveram um sistema inovador de IA que pode gerar movimentos naturais e sincronizados entre humanos virtuais e objetos com base apenas em descrições de texto.
O novo sistema, denominado CHOIS (Síntese de Interação Humano-Objeto Controlável), usa as mais recentes técnicas de modelo de difusão condicional para produzir interações contínuas e precisas, como “levantar a mesa acima da cabeça, caminhar e colocar a mesa no chão”.
O trabalho, publicado em um artigo no arXiv, oferece um vislumbre de um futuro onde os seres virtuais poderão compreender e responder aos comandos da linguagem com a mesma fluidez que os humanos.
“Gerar interações contínuas entre humanos e objetos a partir de descrições de linguagem em cenas 3D apresenta vários desafios”, observaram os pesquisadores no artigo.
Eles tiveram que garantir que os movimentos gerados fossem realistas e sincronizados, mantendo o contato apropriado entre as mãos humanas e os objetos, e que o movimento do objeto tivesse uma relação causal com as ações humanas.
Como funciona
O sistema CHOIS destaca-se pela sua abordagem única para sintetizar interações homem-objeto em um ambiente 3D. Basicamente, o CHOIS usa um modelo de difusão condicional, que é um tipo de modelo generativo que pode simular sequências detalhadas de movimento.
Ao receber um estado inicial das posições humanas e dos objetos, juntamente com uma descrição linguística da tarefa desejada, o CHOIS gera uma sequência de movimentos que culminam na conclusão da tarefa.
Por exemplo, se a instrução é aproximar um abajur de um sofá, CHOIS entende esta diretriz e cria uma animação realista de um avatar humano pegando o abajur e colocando-o perto do sofá.
O que torna o CHOIS particularmente único é o uso de waypoints de objetos esparsos e descrições de linguagem para guiar essas animações. Os waypoints atuam como marcadores para pontos-chave na trajetória do objeto, garantindo que o movimento não seja apenas fisicamente plausível, mas também alinhado com o objetivo de alto nível delineado pela entrada de linguagem.
A singularidade do CHOIS também reside na sua integração avançada da compreensão da linguagem com a simulação física. Os modelos tradicionais muitas vezes lutam para correlacionar a linguagem com ações espaciais e físicas, especialmente num horizonte de interação mais longo, onde muitos fatores devem ser considerados para manter o realismo.
CHOIS preenche esta lacuna interpretando a intenção e o estilo por trás das descrições da linguagem e depois traduzindo-os numa sequência de movimentos físicos que respeitam as restrições tanto do corpo humano como do objeto envolvido.
O sistema é especialmente inovador porque garante que os pontos de contato, como mãos tocando um objeto, sejam representados com precisão e que o movimento do objeto seja consistente com as forças exercidas pelo avatar humano. Além disso, o modelo incorpora funções de perda especializadas e termos de orientação durante as fases de formação e geração para impor estas restrições físicas, o que representa um passo significativo na criação de uma IA que possa compreender e interagir com o mundo físico de uma forma semelhante à humana.
Implicações para computação gráfica, IA e robótica
As implicações do sistema CHOIS na computação gráfica são profundas, particularmente no domínio da animação e da realidade virtual. Ao permitir que a IA interprete instruções em linguagem natural para gerar interações realistas entre humanos e objetos, o CHOIS poderia reduzir drasticamente o tempo e o esforço necessários para animar cenas complexas.
Os animadores poderiam usar essa tecnologia para criar sequências que tradicionalmente exigiriam uma meticulosa animação de quadros-chave, que é ao mesmo tempo trabalhosa e demorada. Além disso, em ambientes de realidade virtual, o CHOIS poderia levar a experiências mais imersivas e interativas, uma vez que os utilizadores poderiam comandar personagens virtuais através de linguagem natural, observando-os executar tarefas com precisão realista. Esse nível elevado de interação pode transformar as experiências de RV de eventos rígidos e programados em ambientes dinâmicos que respondem de forma realista à entrada do usuário.
Nas áreas de IA e robótica, o CHOIS representa um passo gigante em direção a sistemas mais autônomos e conscientes do contexto. Os robôs, muitas vezes limitados por rotinas pré-programadas, poderiam usar um sistema como o CHOIS para compreender melhor o mundo real e executar tarefas descritas em linguagem humana.
Isto pode ser particularmente transformador para robôs de serviço em ambientes de saúde, hospitalidade ou domésticos, onde a capacidade de compreender e executar uma ampla gama de tarefas num espaço físico é crucial.
Para a IA, a capacidade de processar informação linguística e visual simultaneamente para executar tarefas é um passo mais próximo de alcançar um nível de compreensão situacional e contextual que tem sido, até agora, um atributo predominantemente humano. Isto poderá levar a sistemas de IA que sejam assistentes mais úteis em tarefas complexas, capazes de compreender não apenas o “quê”, mas também o “como” das instruções humanas, adaptando-se a novos desafios com um nível de flexibilidade nunca antes visto.
Resultados promissores e perspectivas futuras
No geral, os pesquisadores de Stanford e Meta fizeram progressos importantes em um problema extremamente desafiador na interseção entre visão computacional, PNL (processamento de linguagem natural) e robótica.
A equipe de pesquisa acredita que seu trabalho é um passo significativo na criação de sistemas avançados de IA que simulam comportamentos humanos contínuos em diversos ambientes 3D. Também abre a porta para futuras pesquisas sobre a síntese de interações homem-objeto a partir de cenas 3D e entrada de linguagem, levando potencialmente a sistemas de IA mais sofisticados no futuro.
A missão da VentureBeat é ser uma praça digital para os tomadores de decisões técnicas obterem conhecimento sobre tecnologia empresarial transformadora e realizarem transações. Conheça nossos Briefings.