RAG: ainda relevante na era dos modelos de contexto longo

Composable Enterprise: A Evolução do MACH e Jamstack

20 de maio de 2024

O impacto da conteinerização nas estratégias de APM

20 de maio de 2024

Publicado por Renato Yamazuki em 20 de maio de 2024

Categorias

Api Management

A vantagem óbvia do RAG: mais tokens = custo mais alto

Injetar mais contexto em prompts de modelo de linguagem grande (LLM) significa pagar por mais poder de processamento — seja diretamente com cobranças por token por meio de uma API ou indiretamente por meio do custo de recursos computacionais. Os cientistas e desenvolvedores de dados, portanto, devem considerar cuidadosamente quanto contexto é a quantidade certa para cada tarefa.

De certa forma, esse é um problema interessante de se ter. Os primeiros aplicativos apoiados pelo LLM normalmente usavam toda a janela de contexto e lutavam para otimizar o contexto que caberia nela. À medida que os tamanhos dos contextos aumentaram de 1.000 tokens para 16.000 tokens e agora para um milhão de tokens, a pressão de desenvolvimento passou da priorização dos documentos mais importantes para a decisão onde os ganhos de desempenho já não justificam o preço do texto adicional.

Não importa como uma empresa paga pelo uso do LLM, mais tokens significam custos operacionais mais elevados. Muito poucas tarefas requerem um milhão de tokens de contexto.

Vantagem de modularidade da RAG

A arquitetura modular dos aplicativos baseados em RAG oferece flexibilidade valiosa. Gêmeos, como a maioria dos LLMs, é uma caixa preta. Sem dúvida, funciona bem em alguns tópicos e tarefas e menos bem em outros. Se uma equipe de ciência de dados corporativos construísse um aplicativo que usasse toda a janela de contexto do Gemini 1.5, teria dificuldade em substituir o Gemini por outro modelo – pelo menos até que um concorrente comparável chegasse ao mercado.

Isso não acontece com aplicativos baseados em RAG. Os sistemas LLM baseados em RAG permitem que as equipes de ciência de dados troquem e personalizem cada componente de acordo com suas necessidades específicas.

Snorkel AI trabalhou recentemente em um projeto baseado em RAG com um cliente bancário. O cliente precisava que o sistema respondesse com precisão às perguntas sobre contratos. O projeto começou com componentes prontos para uso (GPT-4 como LLM com LlamaIndex para RAG) e obteve 25% de precisão – muito longe dos benchmarks de implantação.

Em seu primeiro sprint, nossos engenheiros adicionaram componentes ao aplicativo para agrupar e marcar documentos de origem de maneira inteligente. A versão pronta para uso do aplicativo teve dificuldade para identificar quais textos continham datas. Nossa equipe adicionou um modelo auxiliar leve que marcava explicitamente partes de documentos previstas para conter informações de data. Eles também otimizaram o modelo de prompt e ajustaram o modelo de incorporação nos dados específicos do domínio. Em apenas três semanas, melhoraram a precisão do sistema para 79%.

Trabalhos posteriores aumentaram a precisão para 89%, mas eles alcançaram seu primeiro ganho de 54 pontos sem modificar o LLM disponível no mercado. Esse é o poder da modularidade do RAG.

Melhor desenvolvimento de dados cria melhores sistemas LLM

O ganho de precisão de 64 pontos dos nossos engenheiros teria sido impossível sem o desenvolvimento de dados de alta qualidade orientado pelo especialista no assunto do nosso cliente.

Para treinar o modelo de marcação de datas, precisávamos de exemplos de passagens que mencionavam ou não datas. Nossos engenheiros não sabiam imediatamente que tipo de referências sutis de data esperar, mas o especialista no assunto sabia. O SME identificou um pequeno número de passagens com referências de data oblíquas ou sutis e escreveu uma breve explicação do motivo pelo qual as marcaram.

Quando se trata de casos de uso de produção, o RAG vencerá. Sua modularidade, múltiplos pontos de personalização e economia comparativa fazem dele a melhor escolha para IA empresarial.

Nossos engenheiros então codificaram as explicações do SME como funções de rotulagem na plataforma de desenvolvimento de dados Snorkel Flow AI. A plataforma rotulou rapidamente um grande número de documentos e nossos engenheiros verificaram a precisão de suas funções de etiquetagem em relação aos dados reais do SME. Isso lhes permitiu identificar deficiências e iterar até produzir um conjunto de dados de alta qualidade capaz de treinar um modelo auxiliar de alta precisão.

No final, a PME do nosso cliente gastou mais tempo verificando a precisão do modelo do que rotulando os dados.

Embora este tipo de desenvolvimento de dados seja tecnicamente possível com abordagens não programáticas, não é eficiente nem prático.

Onde a janela de contexto de milhões de tokens do Gemini 1.5 se encaixa

Embora eu não recomende que nenhuma empresa construa um sistema LLM de produção que use a janela de contexto completo do Gemini 1.5 pro, a conquista notável do Google tem um lugar no desenvolvimento de IA empresarial.

Modelos de contexto longos acelerarão casos de uso mais simples e de pré-produção. Isso é muita IA empresarial hoje! Gemini e outros permitirão que as equipes de ciência de dados concluam aplicativos de prova de conceito mais rápido do que conseguem agora. Depois de comprovarem o conceito, eles poderão prosseguir para a construção de um aplicativo baseado em RAG robusto, modular e altamente personalizado.

RAG personalizado > Contextos longos em aplicações de produção

Gemini 1.5 representa uma conquista técnica significativa. Aplaudo os pesquisadores e engenheiros do Google pelo que fizeram. Gemini e outros modelos de contexto longo ocuparão um lugar importante na IA empresarial. Permitir que as equipes de ciência de dados lidem com questões pontuais desafiadoras e concluam rascunhos de aplicativos com mais rapidez gerará valor comercial real.

Mas, quando se trata de casos de uso de produção, o RAG vencerá. Sua modularidade, múltiplos pontos de personalização e economia comparativa fazem dele a melhor escolha para IA empresarial.

A postagem RAG: ainda relevante na era dos modelos de contexto longo apareceu pela primeira vez no The New Stack.

Renato Yamazuki

Comments are closed.

RAG: ainda relevante na era dos modelos de contexto longo

Composable Enterprise: A Evolução do MACH e Jamstack

O impacto da conteinerização nas estratégias de APM

Composable Enterprise: A Evolução do MACH e Jamstack

O impacto da conteinerização nas estratégias de APM

A vantagem óbvia do RAG: mais tokens = custo mais alto

Vantagem de modularidade da RAG

Melhor desenvolvimento de dados cria melhores sistemas LLM

Onde a janela de contexto de milhões de tokens do Gemini 1.5 se encaixa

RAG personalizado > Contextos longos em aplicações de produção

Renato Yamazuki

Postagens relacionadas

Trabalhando com APIs LLM: Dev compartilha experiência na construção de AI Bots

Por que toda estratégia de API precisa do GraphQL

Nove principais vulnerabilidades de segurança de API: como se defender delas