O novo AI SALMONN do criador do TikTok entende todo o áudio, não apenas músicas e vozes

Opaque Systems revela ferramentas confidenciais de IA e análise antes do Confidential Computing Summit

17 de janeiro de 2024

A nova IA ‘notável’ da DeepMind controla robôs de todos os tipos

17 de janeiro de 2024

Publicado por Douglas S. em 17 de janeiro de 2024

Categorias

Containers

Tags

O novo AI SALMONN do criador do TikTok entende todo o áudio, não apenas músicas e vozes

Pesquisadores da Universidade de Tsinghua e da ByteDance desenvolveram um novo sistema de inteligência artificial chamado SALMONN que permite às máquinas compreender e raciocinar sobre entradas de áudio como fala, sons e música.

Em um artigo de pesquisa publicado no arXiv, os cientistas descrevem o SALMONN como “um grande modelo de linguagem (LLM) que permite fala, eventos de áudio e entradas de música”. O sistema mescla dois modelos especializados de IA – um para processamento de fala e outro para áudio geral – em um único LLM que pode gerar respostas de texto para prompts de áudio.

“Em vez de entrada apenas de fala ou entrada apenas de evento de áudio, SALMONN pode perceber e compreender todos os tipos de entradas de áudio e, portanto, obter recursos emergentes, como reconhecimento e tradução de fala multilíngue e co-raciocínio de áudio-fala”, afirma o artigo. “Isso pode ser considerado como dar ‘ouvidos’ e habilidades auditivas cognitivas ao LLM.”

Um modelo de IA que ouve e entende

Crédito: arxiv.org

Os pesquisadores demonstraram as habilidades do SALMONN em uma variedade de entradas de áudio, incluindo clipes de fala, tiros, ruídos de patos e música. Quando solicitado com cada clipe de som, o sistema gerou respostas de texto descritivas apropriadas, demonstrando uma compreensão do conteúdo de áudio.

“O prompt de texto é usado para instruir o SALMONN a responder perguntas abertas sobre as entradas gerais de áudio e as respostas estão nas respostas de texto do LLM”, explica o artigo.

De acordo com os pesquisadores, esta técnica de resposta a perguntas cognitivas por áudio representa um grande salto em relação aos sistemas tradicionais de fala e áudio de IA, que são limitados à transcrição básica.

“Em comparação com tarefas tradicionais de processamento de fala e áudio, como reconhecimento de fala e captação de áudio, o SALMONN aproveita o conhecimento geral e as habilidades cognitivas do LLM para alcançar uma percepção de áudio cognitivamente orientada, o que melhora drasticamente a versatilidade do modelo e a riqueza da tarefa ”, afirma o jornal.

Os pesquisadores sugerem que o SALMONN também possui habilidades intermodais, como seguir instruções faladas, sem qualquer treinamento explícito em tradução de fala para texto.

“SALMONN usa apenas dados de treinamento baseados em comandos textuais, ouvir comandos falados também é uma habilidade emergente intermodal”, escrevem eles.

Embora as capacidades atuais sejam promissoras, os investigadores reconhecem que o modelo tem limitações em termos de profundidade de raciocínio. No entanto, eles estão otimistas quanto ao potencial futuro, afirmando que SALMONN “dá um passo em direção à inteligência artificial geral habilitada para audição”.

Impacto potencial do SALMONN na análise de dados empresariais

Para os decisores técnicos, este desenvolvimento poderá anunciar uma nova era de análise de dados activada por voz e inteligência empresarial. A capacidade do SALMONN de compreender e interpretar uma ampla gama de entradas de áudio pode revolucionar a forma como as empresas interagem com os dados, eliminando a necessidade de entradas tradicionais baseadas em texto e abrindo novas possibilidades para análises ativadas por voz e tomada de decisões orientadas por dados.

Além disso, a equipe lançou uma demonstração baseada na web, permitindo aos usuários experimentar os recursos do SALMONN em primeira mão. O modelo também está disponível no Hugging Face, uma plataforma líder para hospedagem e compartilhamento de modelos de aprendizado de máquina.

No mundo em rápida evolução da inteligência artificial, a revelação do SALMONN serve como um interessante vislumbre do futuro da aprendizagem automática e da computação cognitiva. Isso ressalta o compromisso da ByteDance e da Universidade Tsinghua em ampliar os limites do que a IA pode alcançar. À medida que nos aproximamos de um mundo onde a IA pode não só “ver” através da visão computacional, mas também “ouvir” através do processamento cognitivo de áudio, as implicações tanto para as empresas como para os consumidores são profundas.

A missão da VentureBeat é ser uma praça digital para os tomadores de decisões técnicas obterem conhecimento sobre tecnologia empresarial transformadora e realizarem transações. Conheça nossos Briefings.