Além do Git: um novo modelo de colaboração para desenvolvimento de IA/ML
2 de abril de 2024O design da API é muito ruim – veja como consertar
3 de abril de 2024Junte-se a nós em Atlanta no dia 10 de abril e explore o cenário da força de trabalho de segurança. Exploraremos a visão, os benefícios e os casos de uso da IA para equipes de segurança. Solicite um convite aqui.
A Stability AI continua a impulsionar sua visão de IA generativa com o modelo de áudio Stable Audio 2.0 hoje.
A Stability AI talvez seja mais conhecida por seus modelos de difusão estável de texto para imagem, mas esse é apenas um dos muitos modelos nos quais a empresa tem trabalhado. Stable Audio teve seu lançamento inicial em setembro. 2023, introduzindo a capacidade dos usuários de gerar clipes de áudio curtos com um simples prompt de texto. Com o Stable Audio 2.0, os usuários podem gerar faixas de áudio de alta qualidade de até 3 minutos, o dobro dos 90 segundos da versão inicial do Stable Audio habilitada.
Além de oferecer suporte a texto para áudio, o Stable Audio 2.0 também oferecerá suporte à geração de áudio para áudio, onde os usuários carregam uma amostra que desejam usar como prompt. A Stability AI está disponibilizando o Stable Audio para uso limitado gratuitamente no site do Stable Audio, com acesso à API disponível em breve para que os desenvolvedores possam criar serviços.
O novo lançamento do Stable Audio 2.0 é o primeiro grande modelo retirado do Stability AI desde que o ex-CEO e fundador da empresa, Emad Mostaque, renunciou abruptamente no final de março. De acordo com a empresa, ainda está tudo normal e a atualização Stable Audio 2.0 é uma prova disso.
Evento VB
O AI Impact Tour – Atlanta
Solicitar um convite
Lições aprendidas com a versão 2.0 do Stable Audio 1.0
Stability AI repetiu sua experiência inicial de desenvolvimento de Stable Audio em 2023.
Zach Evans, chefe de pesquisa de áudio da Stability AI, disse ao VentureBeat que para o lançamento inicial do Stable Audio 1.0, o foco estava no lançamento de um modelo gerador de texto para áudio inovador com fidelidade de áudio excepcional e uma duração de saída significativa.
“Desde o lançamento inicial, nos dedicamos a aprimorar sua musicalidade, estendendo a duração da produção e aprimorando sua capacidade de responder com precisão a instruções detalhadas”, disse Evans. “Essas melhorias visam otimizar a tecnologia para aplicações práticas no mundo real.”
Stable Audio 2.0 apresenta a capacidade de produzir faixas musicais completas com estrutura musical coerente. Usando a tecnologia de difusão latente, o modelo pode gerar composições de até 3 minutos contendo seções distintas de introdução, desenvolvimento e encerramento. Este é um avanço em relação ao lançamento anterior do Stable Audio, que só podia criar loops ou fragmentos curtos em vez de músicas completas.
Olhando para a ciência do aprendizado de máquina (ML) por trás do Stable Audio 2.0, o modelo ainda depende do que é conhecido como modelo de difusão latente (LDM). Evans explicou que desde a atualização beta do Stable Audio 1.1 lançada em dezembro, o Stable Audio tem um backbone de transformador, tornando-o o que ele chama de modelo de “transformador de difusão”.
“Também aumentamos a quantidade de compactação de dados que aplicamos aos dados de áudio durante o treinamento, permitindo-nos dimensionar as saídas do modelo para três minutos ou mais, mantendo tempos de inferência razoáveis”, disse Evans.
Transformando amostras de áudio com prompts de texto
Além de gerar áudio a partir de prompts de texto, o Stable Audio 2.0 permite transições de áudio para áudio.
Os usuários podem fazer upload de amostras de áudio e usar instruções em linguagem natural para transformar os sons em novas variações. Isso abre fluxos de trabalho criativos, como refinar e editar áudio de forma iterativa, fornecendo orientação textual.
O Stable Audio 2.0 também aumenta significativamente a gama de efeitos sonoros e texturas que podem ser produzidos por meio da geração de IA. Os usuários podem solicitar que o sistema gere ambientes imersivos, texturas ambientais, multidões, paisagens urbanas e muito mais. O modelo também permite modificar o estilo e o tom das amostras de áudio geradas ou carregadas.
Direitos autorais são importantes para áudio da geração AI
Uma preocupação constante em todo o cenário da geração de IA é sobre o uso adequado do material de origem para treinar um modelo.
Stability AI priorizou as proteções de propriedade intelectual com seu novo modelo de áudio. Para resolver questões de direitos autorais, o Stable Audio 2.0 foi treinado exclusivamente em dados licenciados da AudioSparx, com solicitações de cancelamento atendidas. Os uploads de áudio são monitorados usando reconhecimento de conteúdo para evitar o processamento de material protegido por direitos autorais.
Proteger os direitos autorais é fundamental para garantir que a Stability AI possa comercializar o Stable Audio e que a tecnologia possa ser usada com segurança pelas organizações. Atualmente, o Stable Audio é monetizado por meio de assinaturas do aplicativo da web Stable Audio e em breve estará disponível na API Stable Audio.
No entanto, o Stable Audio não é um modelo aberto, pelo menos ainda não.
“Os pesos do Stable Audio 2.0 não estarão disponíveis para download; no entanto, estamos trabalhando em modelos de áudio abertos a serem lançados ainda este ano”, disse Evans.