Como dimensionar o RAG e construir LLMs mais precisos

As métricas de produtividade do desenvolvedor impulsionam a melhoria contínua

10 de junho de 2024

Aproveite o poder da GenAI sem afundar em dívidas técnicas

11 de junho de 2024

Publicado por Douglas S. em 11 de junho de 2024

Categorias

Data Science

Por que não apenas treinar um LLM em dados específicos da empresa?

As melhores práticas atuais para IA generativa muitas vezes exigem a criação de modelos básicos, treinando transformadores de bilhões de nós em grandes quantidades de dados, tornando essa abordagem proibitivamente cara para a maioria das organizações. Por exemplo, a OpenAI disse que gastou mais de US$ 100 milhões para treinar o GPT-4. A investigação e a indústria estão a começar a fornecer resultados promissores para modelos de línguas pequenas e métodos de formação menos dispendiosos, mas estes ainda não são generalizáveis e comoditizados.

O ajuste fino de um modelo existente é outra abordagem que consome menos recursos e também pode se tornar uma boa opção no futuro, mas essa técnica ainda requer conhecimentos significativos para funcionar corretamente. Um dos benefícios dos LLMs é que eles democratizam o acesso à IA, mas ter que contratar uma equipe de Ph.Ds para ajustar um modelo anula em grande parte esse benefício.

O RAG é a melhor opção atualmente, mas deve ser implementado de uma forma que forneça informações precisas e atualizadas e de uma forma governada que possa ser dimensionada entre aplicações e equipes. Para ver por que uma arquitetura orientada a eventos é a mais adequada para isso, é útil observar quatro padrões de desenvolvimento de aplicativos GenAI.

Aumento de dados

Um aplicativo deve ser capaz de extrair informações contextuais relevantes, o que normalmente é conseguido usando um banco de dados vetorial para procurar informações semanticamente semelhantes, normalmente codificadas em texto semiestruturado ou não estruturado. Isso significa coletar dados de armazenamentos operacionais distintos e “dividi-los” em segmentos gerenciáveis que mantêm seu significado. Esses pedaços de informações são então incorporados ao banco de dados vetorial, onde podem ser acoplados a prompts.

Uma arquitetura orientada a eventos é benéfica aqui porque é um método comprovado para integrar fontes distintas de dados de uma empresa em tempo real para fornecer informações confiáveis.

Por outro lado, um pipeline ETL (extrair, transformar, carregar) mais tradicional que usa operações em lote em cascata não é adequado, porque as informações geralmente estarão obsoletas quando chegarem ao LLM. Uma arquitetura orientada a eventos garante que, quando forem feitas alterações no armazenamento de dados operacionais, essas alterações serão transportadas para o armazenamento de vetores que será usado para contextualizar os prompts. A organização desses dados como produtos de dados de streaming também promove a reutilização, de modo que essas transformações de dados podem ser tratadas como componentes combináveis que podem dar suporte ao aumento de dados para vários aplicativos habilitados para LLM.

Inferência

A inferência envolve prompts de engenharia com dados preparados nas etapas anteriores e tratamento de respostas do LLM. Quando chega um prompt de um usuário, o aplicativo reúne o contexto relevante do banco de dados vetorial ou de um serviço equivalente para gerar o melhor prompt possível.

Aplicativos como o ChatGPT geralmente demoram alguns segundos para responder, o que é uma eternidade em sistemas distribuídos. Usar uma abordagem orientada a eventos significa que essa comunicação pode ocorrer de forma assíncrona entre serviços e equipes. Com uma arquitetura orientada a eventos, os serviços podem ser decompostos em especializações funcionais, o que permite que as equipes de desenvolvimento de aplicativos e as equipes de dados trabalhem separadamente para atingir seus objetivos de desempenho e precisão.

Além disso, por terem serviços especializados decompostos em vez de monólitos, esses aplicativos podem ser implantados e dimensionados de forma independente. Isso ajuda a reduzir o tempo de lançamento no mercado, uma vez que as novas etapas de inferência são grupos de consumidores, e a organização pode criar um modelo de infraestrutura para instanciá-los rapidamente.

Fluxos de trabalho

Os agentes de raciocínio e as etapas de inferência são frequentemente vinculados a sequências em que a próxima chamada do LLM é baseada na resposta anterior. Isto é útil para automatizar tarefas complexas onde uma única chamada LLM não será suficiente para concluir um processo. Outra razão para decompor os agentes em cadeias de chamadas é porque os LLMs populares hoje tendem a retornar melhores resultados quando fazemos perguntas múltiplas e mais simples, embora isso esteja mudando.

Como ilustra o exemplo de fluxo de trabalho abaixo, com uma plataforma de streaming de dados, a equipe de desenvolvimento web pode trabalhar de forma independente dos engenheiros de sistema backend, permitindo que cada equipe seja dimensionada de acordo com suas necessidades. A plataforma de streaming de dados permite essa dissociação de tecnologias, equipes e sistemas.

Pós-processamento

Apesar dos nossos melhores esforços, os LLMs ainda podem gerar resultados errados, por isso precisamos de uma forma de validar os resultados e impor regras de negócio para evitar que esses erros causem danos.

Normalmente, os fluxos de trabalho e as dependências do LLM mudam muito mais rapidamente do que as regras de negócios que determinam se os resultados são aceitáveis. No exemplo acima, vemos novamente um bom uso da dissociação com uma plataforma de streaming de dados: a equipe de conformidade que valida os resultados do LLM pode operar de forma independente para definir as regras sem a necessidade de coordenação com a equipe que está construindo as aplicações do LLM.

Conclusão

RAG é um modelo poderoso para melhorar a precisão dos LLMs e tornar viáveis aplicações generativas de IA para casos de uso corporativo. Mas o RAG não é uma solução mágica. Ela precisa ser cercada por uma arquitetura e mecanismos de entrega de dados que permitam às equipes construir múltiplas aplicações generativas de IA sem reinventar a roda e de uma maneira que atenda aos padrões empresariais de governança e qualidade de dados.

Um modelo de streaming de dados é a maneira mais simples e eficiente de atender a essas necessidades, permitindo que as equipes aproveitem todo o poder dos LLMs para gerar novo valor para seus negócios. À medida que a tecnologia se torna o negócio e a IA melhora esta tecnologia, as empresas que competem eficazmente incorporarão a IA para aumentar e simplificar cada vez mais processos.

Ao ter um modelo operacional comum para aplicativos RAG, a empresa pode lançar rapidamente o primeiro caso de uso no mercado, ao mesmo tempo em que acelera a entrega e reduz custos para todos os que o seguem.

Confira nosso hub de recursos GenAI para saber como o Confluent pode impulsionar sua jornada GenAI.

Andrew Sellers lidera o Grupo de Estratégia de Tecnologia da Confluent, apoiando o desenvolvimento de estratégia, análise competitiva e liderança inovadora. Anteriormente, ele trouxe ao mercado diversas ofertas comerciais habilitadas para IA como líder em tecnologia. Ele é co-inventor de mais de uma dúzia de patentes relacionadas a…

Douglas S.

Comments are closed.

Como dimensionar o RAG e construir LLMs mais precisos

As métricas de produtividade do desenvolvedor impulsionam a melhoria contínua

Aproveite o poder da GenAI sem afundar em dívidas técnicas

As métricas de produtividade do desenvolvedor impulsionam a melhoria contínua

Aproveite o poder da GenAI sem afundar em dívidas técnicas

Por que não apenas treinar um LLM em dados específicos da empresa?

Aumento de dados

Inferência

Fluxos de trabalho

Pós-processamento

Conclusão

Douglas S.

Postagens relacionadas

Vamos ser agentes: agentes LangChain e LlamaIndex Talk AI

Como gerenciar 45 bilhões de registros de clientes com Aerospike

Usando SPLADE para gerar embeddings esparsos aprendidos