A geração aumentada de recuperação (RAG) emergiu como um padrão líder para combater alucinações e outras imprecisões que afetam a geração de conteúdo de grandes modelos de linguagem. No entanto, o RAG precisa da arquitetura de dados certa para escalar de forma eficaz e eficiente.
Uma abordagem de streaming de dados fundamenta a arquitetura ideal para fornecer aos LLMs grandes volumes de dados confiáveis e continuamente enriquecidos para gerar resultados precisos. Essa abordagem também permite que as equipes de dados e aplicativos trabalhem e escalem de forma independente para acelerar a inovação.
LLMs básicos como GPT e Llama são treinados em grandes quantidades de dados e muitas vezes podem gerar respostas razoáveis sobre uma ampla gama de tópicos, mas geram conteúdo errôneo. Como observou recentemente a Forrester, os LLMs públicos “produzem regularmente resultados que são irrelevantes ou totalmente errados”, porque os seus dados de formação são ponderados em relação aos dados da Internet disponíveis publicamente.
Além disso, esses LLMs fundamentais são completamente cegos para os dados corporativos armazenados em bancos de dados de clientes, sistemas ERP, wikis corporativos e outras fontes de dados internas. Esses dados ocultos devem ser aproveitados para melhorar a precisão e desbloquear valor comercial real.
O RAG permite que as equipes de dados contextualizem os prompts em tempo real com dados da empresa específicos do domínio. Ter este contexto adicional torna muito mais provável que o LLM identifique o padrão correto nos dados e forneça uma resposta correta e relevante. Isto é fundamental para casos de uso empresarial populares, como pesquisa semântica, geração de conteúdo ou copilotos, onde os resultados devem ser baseados em informações precisas e atualizadas para serem confiáveis.
Por que não apenas treinar um LLM em dados específicos da empresa?
As melhores práticas atuais para IA generativa muitas vezes exigem a criação de modelos básicos, treinando transformadores de bilhões de nós em grandes quantidades de dados, tornando essa abordagem proibitivamente cara para a maioria das organizações. Por exemplo, a OpenAI disse que gastou mais de US$ 100 milhões para treinar o GPT-4. A investigação e a indústria estão a começar a fornecer resultados promissores para modelos de línguas pequenas e métodos de formação menos dispendiosos, mas estes ainda não são generalizáveis e comoditizados.
O ajuste fino de um modelo existente é outra abordagem que consome menos recursos e também pode se tornar uma boa opção no futuro, mas essa técnica ainda requer conhecimentos significativos para funcionar corretamente. Um dos benefícios dos LLMs é que eles democratizam o acesso à IA, mas ter que contratar uma equipe de Ph.Ds para ajustar um modelo anula em grande parte esse benefício.
O RAG é a melhor opção atualmente, mas deve ser implementado de uma forma que forneça informações precisas e atualizadas e de uma forma governada que possa ser dimensionada entre aplicações e equipes. Para ver por que uma arquitetura orientada a eventos é a mais adequada para isso, é útil observar quatro padrões de desenvolvimento de aplicativos GenAI.
Aumento de dados
Um aplicativo deve ser capaz de extrair informações contextuais relevantes, o que normalmente é conseguido usando um banco de dados vetorial para procurar informações semanticamente semelhantes, normalmente codificadas em texto semiestruturado ou não estruturado. Isso significa coletar dados de armazenamentos operacionais distintos e “dividi-los” em segmentos gerenciáveis que mantêm seu significado. Esses pedaços de informações são então incorporados ao banco de dados vetorial, onde podem ser acoplados a prompts.
Uma arquitetura orientada a eventos é benéfica aqui porque é um método comprovado para integrar fontes distintas de dados de uma empresa em tempo real para fornecer informações confiáveis.
Por outro lado, um pipeline ETL (extrair, transformar, carregar) mais tradicional que usa operações em lote em cascata não é adequado, porque as informações geralmente estarão obsoletas quando chegarem ao LLM. Uma arquitetura orientada a eventos garante que, quando forem feitas alterações no armazenamento de dados operacionais, essas alterações serão transportadas para o armazenamento de vetores que será usado para contextualizar os prompts. A organização desses dados como produtos de dados de streaming também promove a reutilização, de modo que essas transformações de dados podem ser tratadas como componentes combináveis que podem dar suporte ao aumento de dados para vários aplicativos habilitados para LLM.
Inferência
A inferência envolve prompts de engenharia com dados preparados nas etapas anteriores e tratamento de respostas do LLM. Quando chega um prompt de um usuário, o aplicativo reúne o contexto relevante do banco de dados vetorial ou de um serviço equivalente para gerar o melhor prompt possível.
Aplicativos como o ChatGPT geralmente demoram alguns segundos para responder, o que é uma eternidade em sistemas distribuídos. Usar uma abordagem orientada a eventos significa que essa comunicação pode ocorrer de forma assíncrona entre serviços e equipes. Com uma arquitetura orientada a eventos, os serviços podem ser decompostos em especializações funcionais, o que permite que as equipes de desenvolvimento de aplicativos e as equipes de dados trabalhem separadamente para atingir seus objetivos de desempenho e precisão.
Além disso, por terem serviços especializados decompostos em vez de monólitos, esses aplicativos podem ser implantados e dimensionados de forma independente. Isso ajuda a reduzir o tempo de lançamento no mercado, uma vez que as novas etapas de inferência são grupos de consumidores, e a organização pode criar um modelo de infraestrutura para instanciá-los rapidamente.
Fluxos de trabalho
Os agentes de raciocínio e as etapas de inferência são frequentemente vinculados a sequências em que a próxima chamada do LLM é baseada na resposta anterior. Isto é útil para automatizar tarefas complexas onde uma única chamada LLM não será suficiente para concluir um processo. Outra razão para decompor os agentes em cadeias de chamadas é porque os LLMs populares hoje tendem a retornar melhores resultados quando fazemos perguntas múltiplas e mais simples, embora isso esteja mudando.
Como ilustra o exemplo de fluxo de trabalho abaixo, com uma plataforma de streaming de dados, a equipe de desenvolvimento web pode trabalhar de forma independente dos engenheiros de sistema backend, permitindo que cada equipe seja dimensionada de acordo com suas necessidades. A plataforma de streaming de dados permite essa dissociação de tecnologias, equipes e sistemas.
Pós-processamento
Apesar dos nossos melhores esforços, os LLMs ainda podem gerar resultados errados, por isso precisamos de uma forma de validar os resultados e impor regras de negócio para evitar que esses erros causem danos.
Normalmente, os fluxos de trabalho e as dependências do LLM mudam muito mais rapidamente do que as regras de negócios que determinam se os resultados são aceitáveis. No exemplo acima, vemos novamente um bom uso da dissociação com uma plataforma de streaming de dados: a equipe de conformidade que valida os resultados do LLM pode operar de forma independente para definir as regras sem a necessidade de coordenação com a equipe que está construindo as aplicações do LLM.
Conclusão
RAG é um modelo poderoso para melhorar a precisão dos LLMs e tornar viáveis aplicações generativas de IA para casos de uso corporativo. Mas o RAG não é uma solução mágica. Ela precisa ser cercada por uma arquitetura e mecanismos de entrega de dados que permitam às equipes construir múltiplas aplicações generativas de IA sem reinventar a roda e de uma maneira que atenda aos padrões empresariais de governança e qualidade de dados.
Um modelo de streaming de dados é a maneira mais simples e eficiente de atender a essas necessidades, permitindo que as equipes aproveitem todo o poder dos LLMs para gerar novo valor para seus negócios. À medida que a tecnologia se torna o negócio e a IA melhora esta tecnologia, as empresas que competem eficazmente incorporarão a IA para aumentar e simplificar cada vez mais processos.
Ao ter um modelo operacional comum para aplicativos RAG, a empresa pode lançar rapidamente o primeiro caso de uso no mercado, ao mesmo tempo em que acelera a entrega e reduz custos para todos os que o seguem.
Confira nosso hub de recursos GenAI para saber como o Confluent pode impulsionar sua jornada GenAI.
YOUTUBE.COM/THENEWSTACK
A tecnologia avança rápido, não perca um episódio. Inscreva-se em nosso canal no YouTube para transmitir todos os nossos podcasts, entrevistas, demonstrações e muito mais.
SE INSCREVER
Andrew Sellers lidera o Grupo de Estratégia de Tecnologia da Confluent, apoiando o desenvolvimento de estratégia, análise competitiva e liderança inovadora. Anteriormente, ele trouxe ao mercado diversas ofertas comerciais habilitadas para IA como líder em tecnologia. Ele é co-inventor de mais de uma dúzia de patentes relacionadas a…
Este site utiliza cookies para melhorar sua experiência de navegação. Ao continuar, você concorda com o uso de cookies. Para mais informações, consulte nossa Política de Privacidade.
Funcional
Sempre ativo
O armazenamento ou acesso técnico é estritamente necessário para a finalidade legítima de permitir a utilização de um serviço específico explicitamente solicitado pelo assinante ou utilizador, ou com a finalidade exclusiva de efetuar a transmissão de uma comunicação através de uma rede de comunicações eletrónicas.
Preferências
O armazenamento ou acesso técnico é necessário para o propósito legítimo de armazenar preferências que não são solicitadas pelo assinante ou usuário.
Estatísticas
O armazenamento ou acesso técnico que é usado exclusivamente para fins estatísticos.O armazenamento técnico ou acesso que é usado exclusivamente para fins estatísticos anônimos. Sem uma intimação, conformidade voluntária por parte de seu provedor de serviços de Internet ou registros adicionais de terceiros, as informações armazenadas ou recuperadas apenas para esse fim geralmente não podem ser usadas para identificá-lo.
Marketing
O armazenamento ou acesso técnico é necessário para criar perfis de usuário para enviar publicidade ou para rastrear o usuário em um site ou em vários sites para fins de marketing semelhantes.