Por que a latência e o ‘custo total de propriedade’ são mais importantes em aplicativos de IA

.NET Aspire da Microsoft: o Spring Boot do desenvolvimento .NET

23 de maio de 2024

Crédito: VentureBeat feito com Midjourney

McKesson e Merck apoiam rodada de US$ 33 milhões da Atropos Health para acelerar o desenvolvimento de medicamentos com IA

23 de maio de 2024

Publicado por em 23 de maio de 2024

Categorias

Frontend Development

Tags

Por que a latência e o ‘custo total de propriedade’ são mais importantes em aplicativos de IA

Lin Qiao, desenvolvedor que se tornou CEO, prevê uma nova era emergente na IA, onde os modelos de modelagem de linguagem são ajustados com base nos dados especializados da própria organização. Isto permitirá que as organizações aproveitem as capacidades linguísticas da IA, ao mesmo tempo que aproveitam os seus próprios conjuntos de dados para informar o feedback.

Antes de se tornar CEO da Fireworks AI, Qiao liderou os esforços PyTorch da Meta. A IA generativa pode resolver centenas de problemas lógicos complexos, observou ela, mas esse não é o problema que as empresas e os desenvolvedores normalmente enfrentam.

“O modelo grande é muito caro para operar e não oferece baixa latência para uma boa experiência do produto”, disse ela. “Isso pressiona as pessoas a optarem por modelos menores.”

Modelos menores também funcionam melhor com os problemas de negócios que os desenvolvedores estão tentando resolver.

“Eles têm talvez cinco tarefas específicas de negócios para resolver”, disse ela. “Estamos (estamos) nos concentrando nesses modelos menores de código aberto, em como colocá-los no mesmo nível do modelo OpenAI em termos de qualidade ou até mesmo superá-los em termos de qualidade. Ao mesmo tempo, oferecemos latência muito menor e TCO (custo total de propriedade) muito menor para essas aplicações e produtos B2C.”

Nesta era emergente da IA, Qiao disse que há dois problemas que os desenvolvedores enfrentam:

Realização de iterações rápidas de treinamento usando dados corporativos.
Dimensionando aplicativos generativos de IA em produção.

A empresa que ela cofundou, Fireworks AI, está “focada em laser” em lidar com esses dois problemas para os desenvolvedores, disse ela ao The New Stack. “Oferecemos um ajuste extremamente rápido”, acrescentou ela.

O Fireworks AI aproveita modelos de código aberto. Recentemente, arrecadou US$ 25 milhões em financiamento e conta com 12.000 usuários, incluindo Quora, Sourcegraph e a empresa de apresentações AI-Powerpoint, Tome. Ela estima que atenda mais de 25 bilhões de tokens diariamente.

A latência é crítica em aplicações de IA

Qiao aprendeu que para empresas B2C como a Meta, onde trabalhou anteriormente, interatividade e baixa latência são requisitos absolutos. A geração de conteúdo impacta especificamente se um produto é viável ou não, disse ela; a criação de um produto de IA de qualidade requer o uso de seus próprios dados e a iteração rápida do modelo, acrescentou ela.

“Todos os desenvolvedores das empresas com quem conversamos têm seus dados proprietários, usam nossa plataforma de ajuste fino e geram um modelo personalizado”, disse ela. “Um upload com um clique para nossa plataforma de inferência e então seu produto pode se comunicar diretamente com seu modelo personalizado usando o conteúdo gerado a partir de seu modelo.”

Os desenvolvedores devem então observar as métricas do produto, ajustar os dados, se necessário, e manter o ciclo para ajustar os modelos.

Então, o aplicativo de IA deve ser capaz de escalar muito rapidamente e, ao mesmo tempo, oferecer um baixo custo total de propriedade, acrescentou ela.

“Se o custo for alto, você desperdiçará dinheiro muito mais rápido, então será um desastre e você não terá um negócio viável”, disse ela. “Tanto a latência quanto o TCO são importantes para empresas B2C.”

O desafio de custo dos aplicativos de IA

Mas mesmo com um excelente produto, as aplicações generativas de IA podem ser mais caras do que as aplicações tradicionais, o que se torna um fator no custo total de propriedade. Uma maneira pela qual os aplicativos generativos de IA são diferentes dos aplicativos tradicionais é que eles exigem execução em GPUs em vez de CPUs, que são altamente comoditizadas.

“As GPUs são caras – não são apenas os chips que são caros. Uma GPU consome muita energia. A energia é cara. A energia produz calor. Ele não pode usar resfriamento a ar, tem que usar resfriamento líquido ou resfriamento inverso, onde você despeja os chips no óleo para remover o calor”, disse Qiao. “Portanto, toda a infraestrutura de suporte aumenta todo o custo da infraestrutura do GenAI.”

Esse custo pode ser uma barreira adicional para a viabilidade do negócio, acrescentou ela. O Fireworks tenta ajudar as empresas a enfrentar o desafio do TCO, concentrando-se em modelos menores e de código aberto que sejam iguais ou melhores do que as ofertas de IA generativa LLM, ao mesmo tempo em que são mais econômicos de operar.

“Oferecemos latência e TCO muito mais baixos para aplicações e produtos B2C”, disse ela.

Casos de uso para modelos menores

Muitos dos clientes do Fireworks AI estão usando IA para criar assistentes, disse ela – assistentes médicos, assistentes jurídicos e assistentes de codificação são casos de uso populares. Isso torna a latência um desafio particularmente importante para a IA devido à natureza interativa e conversacional do seu resultado.

Documentos são outro caso de uso que ela vê com frequência. De imagens a PDFs, a IA está sendo usada para digitalizar e pesquisar documentos para catálogos de produtos, comércio eletrônico e até mesmo análises de risco. Tome, cliente do Fireworks AI, usa IA para criar slides de apresentação para usuários corporativos.

Sem um tempo de resposta rápido, um aplicativo de IA pode se tornar um produto horrível, acrescentou ela.

“Esse tempo de resposta geralmente é de meio segundo ou um segundo”, disse ela. “Torna-se um produto muito mais interessante porque é responsivo e interativo.”

A postagem Por que a latência e o ‘custo total de propriedade’ são mais importantes em aplicativos de IA apareceu pela primeira vez no The New Stack.

Comments are closed.

Por que a latência e o ‘custo total de propriedade’ são mais importantes em aplicativos de IA

.NET Aspire da Microsoft: o Spring Boot do desenvolvimento .NET

McKesson e Merck apoiam rodada de US$ 33 milhões da Atropos Health para acelerar o desenvolvimento de medicamentos com IA

.NET Aspire da Microsoft: o Spring Boot do desenvolvimento .NET

McKesson e Merck apoiam rodada de US$ 33 milhões da Atropos Health para acelerar o desenvolvimento de medicamentos com IA

A latência é crítica em aplicações de IA

O desafio de custo dos aplicativos de IA

Casos de uso para modelos menores

Postagens relacionadas

Figma Redesign mostra como a IA pode transformar aplicativos e adiciona suporte ao desenvolvedor

Retorne ao Rails Way: Instalando Ruby on Rails em 2024

MoonBit: linguagem otimizada para Wasm cria menos código que ferrugem