Stability AI traz nova clareza e potência para geração de áudio AI com Stable Audio 2.0

Além do Git: um novo modelo de colaboração para desenvolvimento de IA/ML

2 de abril de 2024

O design da API é muito ruim – veja como consertar

3 de abril de 2024

Publicado por em 3 de abril de 2024

Categorias

Big Data And Analytics

Tags

Stability AI traz nova clareza e potência para geração de áudio AI com Stable Audio 2.0

Junte-se a nós em Atlanta no dia 10 de abril e explore o cenário da força de trabalho de segurança. Exploraremos a visão, os benefícios e os casos de uso da IA para equipes de segurança. Solicite um convite aqui.

A Stability AI continua a impulsionar sua visão de IA generativa com o modelo de áudio Stable Audio 2.0 hoje.

A Stability AI talvez seja mais conhecida por seus modelos de difusão estável de texto para imagem, mas esse é apenas um dos muitos modelos nos quais a empresa tem trabalhado. Stable Audio teve seu lançamento inicial em setembro. 2023, introduzindo a capacidade dos usuários de gerar clipes de áudio curtos com um simples prompt de texto. Com o Stable Audio 2.0, os usuários podem gerar faixas de áudio de alta qualidade de até 3 minutos, o dobro dos 90 segundos da versão inicial do Stable Audio habilitada.

Além de oferecer suporte a texto para áudio, o Stable Audio 2.0 também oferecerá suporte à geração de áudio para áudio, onde os usuários carregam uma amostra que desejam usar como prompt. A Stability AI está disponibilizando o Stable Audio para uso limitado gratuitamente no site do Stable Audio, com acesso à API disponível em breve para que os desenvolvedores possam criar serviços.

O novo lançamento do Stable Audio 2.0 é o primeiro grande modelo retirado do Stability AI desde que o ex-CEO e fundador da empresa, Emad Mostaque, renunciou abruptamente no final de março. De acordo com a empresa, ainda está tudo normal e a atualização Stable Audio 2.0 é uma prova disso.

Evento VB

O AI Impact Tour – Atlanta

Continuando nosso tour, iremos para Atlanta para a parada do AI Impact Tour no dia 10 de abril. Este evento exclusivo, apenas para convidados, em parceria com a Microsoft, apresentará discussões sobre como a IA generativa está transformando a força de trabalho de segurança. As vagas são limitadas, então solicite um convite hoje.

Solicitar um convite

Lições aprendidas com a versão 2.0 do Stable Audio 1.0

Stability AI repetiu sua experiência inicial de desenvolvimento de Stable Audio em 2023.

Zach Evans, chefe de pesquisa de áudio da Stability AI, disse ao VentureBeat que para o lançamento inicial do Stable Audio 1.0, o foco estava no lançamento de um modelo gerador de texto para áudio inovador com fidelidade de áudio excepcional e uma duração de saída significativa.

“Desde o lançamento inicial, nos dedicamos a aprimorar sua musicalidade, estendendo a duração da produção e aprimorando sua capacidade de responder com precisão a instruções detalhadas”, disse Evans. “Essas melhorias visam otimizar a tecnologia para aplicações práticas no mundo real.”

Stable Audio 2.0 apresenta a capacidade de produzir faixas musicais completas com estrutura musical coerente. Usando a tecnologia de difusão latente, o modelo pode gerar composições de até 3 minutos contendo seções distintas de introdução, desenvolvimento e encerramento. Este é um avanço em relação ao lançamento anterior do Stable Audio, que só podia criar loops ou fragmentos curtos em vez de músicas completas.

Olhando para a ciência do aprendizado de máquina (ML) por trás do Stable Audio 2.0, o modelo ainda depende do que é conhecido como modelo de difusão latente (LDM). Evans explicou que desde a atualização beta do Stable Audio 1.1 lançada em dezembro, o Stable Audio tem um backbone de transformador, tornando-o o que ele chama de modelo de “transformador de difusão”.

“Também aumentamos a quantidade de compactação de dados que aplicamos aos dados de áudio durante o treinamento, permitindo-nos dimensionar as saídas do modelo para três minutos ou mais, mantendo tempos de inferência razoáveis”, disse Evans.

Transformando amostras de áudio com prompts de texto

Além de gerar áudio a partir de prompts de texto, o Stable Audio 2.0 permite transições de áudio para áudio.

Os usuários podem fazer upload de amostras de áudio e usar instruções em linguagem natural para transformar os sons em novas variações. Isso abre fluxos de trabalho criativos, como refinar e editar áudio de forma iterativa, fornecendo orientação textual.

O Stable Audio 2.0 também aumenta significativamente a gama de efeitos sonoros e texturas que podem ser produzidos por meio da geração de IA. Os usuários podem solicitar que o sistema gere ambientes imersivos, texturas ambientais, multidões, paisagens urbanas e muito mais. O modelo também permite modificar o estilo e o tom das amostras de áudio geradas ou carregadas.

Direitos autorais são importantes para áudio da geração AI

Uma preocupação constante em todo o cenário da geração de IA é sobre o uso adequado do material de origem para treinar um modelo.

Stability AI priorizou as proteções de propriedade intelectual com seu novo modelo de áudio. Para resolver questões de direitos autorais, o Stable Audio 2.0 foi treinado exclusivamente em dados licenciados da AudioSparx, com solicitações de cancelamento atendidas. Os uploads de áudio são monitorados usando reconhecimento de conteúdo para evitar o processamento de material protegido por direitos autorais.

Proteger os direitos autorais é fundamental para garantir que a Stability AI possa comercializar o Stable Audio e que a tecnologia possa ser usada com segurança pelas organizações. Atualmente, o Stable Audio é monetizado por meio de assinaturas do aplicativo da web Stable Audio e em breve estará disponível na API Stable Audio.

No entanto, o Stable Audio não é um modelo aberto, pelo menos ainda não.

“Os pesos do Stable Audio 2.0 não estarão disponíveis para download; no entanto, estamos trabalhando em modelos de áudio abertos a serem lançados ainda este ano”, disse Evans.

VB diário

Fique por dentro! Receba as últimas notícias em sua caixa de entrada diariamente

Ao se inscrever, você concorda com os Termos de Serviço do VentureBeat.

Grato pela assinatura. Confira mais boletins informativos VB aqui.

Um erro ocorreu.

Comments are closed.

Stability AI traz nova clareza e potência para geração de áudio AI com Stable Audio 2.0

Além do Git: um novo modelo de colaboração para desenvolvimento de IA/ML

O design da API é muito ruim – veja como consertar

Além do Git: um novo modelo de colaboração para desenvolvimento de IA/ML

O design da API é muito ruim – veja como consertar

Evento VB

Lições aprendidas com a versão 2.0 do Stable Audio 1.0

Transformando amostras de áudio com prompts de texto

Direitos autorais são importantes para áudio da geração AI

Postagens relacionadas

Women Create Games Forum anuncia programação e data de palestrantes

Anunciando os finalistas do 6º VentureBeat AI Innovations Awards anual

Pixel Perfect Dude revela detalhes de jogo para #Drive Rally