Composable Enterprise: A Evolução do MACH e Jamstack
20 de maio de 2024O impacto da conteinerização nas estratégias de APM
20 de maio de 2024O Google lançou recentemente o Gemini 1.5 Pro, um grande modelo de linguagem que ostenta uma gigantesca janela de contexto de um milhão de tokens. Isso gerou um burburinho na comunidade de IA, com alguns apelidando-o de “assassino RAG”.
Antes de nos apressarmos em escrever elogios à geração aumentada de recuperação (RAG), vamos respirar fundo e analisar a situação do ponto de vista empresarial. Janelas de contexto extremamente longas podem levar as equipes de ciência de dados a um pipeline de trabalho mais rápido, mas será que uma vantagem na velocidade de implantação justifica um aplicativo que custa muitas vezes mais para ser executado em produção?
Provavelmente não.
As empresas precisam de aplicativos que alcancem alto desempenho em um espaço reduzido. Isso significa escolher e personalizar um modelo de fundação do tamanho certo, juntamente com todo o suporte Sistema LLM ecossistema ao seu redor. Sistemas RAG altamente personalizados simplesmente oferecem melhor valor para tarefas de alto rendimento.
Mas estas tecnologias podem coexistir. Embora o RAG continue a ser um elemento básico nas aplicações de produção, o Gemini 1.5 Pro e modelos semelhantes ajudarão as equipes de ciência de dados empresariais a experimentar e iterar com mais rapidez.
A vantagem óbvia do RAG: mais tokens = custo mais alto
Injetar mais contexto em prompts de modelo de linguagem grande (LLM) significa pagar por mais poder de processamento — seja diretamente com cobranças por token por meio de uma API ou indiretamente por meio do custo de recursos computacionais. Os cientistas e desenvolvedores de dados, portanto, devem considerar cuidadosamente quanto contexto é a quantidade certa para cada tarefa.
De certa forma, esse é um problema interessante de se ter. Os primeiros aplicativos apoiados pelo LLM normalmente usavam toda a janela de contexto e lutavam para otimizar o contexto que caberia nela. À medida que os tamanhos dos contextos aumentaram de 1.000 tokens para 16.000 tokens e agora para um milhão de tokens, a pressão de desenvolvimento passou da priorização dos documentos mais importantes para a decisão onde os ganhos de desempenho já não justificam o preço do texto adicional.
Não importa como uma empresa paga pelo uso do LLM, mais tokens significam custos operacionais mais elevados. Muito poucas tarefas requerem um milhão de tokens de contexto.
Vantagem de modularidade da RAG
A arquitetura modular dos aplicativos baseados em RAG oferece flexibilidade valiosa. Gêmeos, como a maioria dos LLMs, é uma caixa preta. Sem dúvida, funciona bem em alguns tópicos e tarefas e menos bem em outros. Se uma equipe de ciência de dados corporativos construísse um aplicativo que usasse toda a janela de contexto do Gemini 1.5, teria dificuldade em substituir o Gemini por outro modelo – pelo menos até que um concorrente comparável chegasse ao mercado.
Isso não acontece com aplicativos baseados em RAG. Os sistemas LLM baseados em RAG permitem que as equipes de ciência de dados troquem e personalizem cada componente de acordo com suas necessidades específicas.
Snorkel AI trabalhou recentemente em um projeto baseado em RAG com um cliente bancário. O cliente precisava que o sistema respondesse com precisão às perguntas sobre contratos. O projeto começou com componentes prontos para uso (GPT-4 como LLM com LlamaIndex para RAG) e obteve 25% de precisão – muito longe dos benchmarks de implantação.
Em seu primeiro sprint, nossos engenheiros adicionaram componentes ao aplicativo para agrupar e marcar documentos de origem de maneira inteligente. A versão pronta para uso do aplicativo teve dificuldade para identificar quais textos continham datas. Nossa equipe adicionou um modelo auxiliar leve que marcava explicitamente partes de documentos previstas para conter informações de data. Eles também otimizaram o modelo de prompt e ajustaram o modelo de incorporação nos dados específicos do domínio. Em apenas três semanas, melhoraram a precisão do sistema para 79%.
Trabalhos posteriores aumentaram a precisão para 89%, mas eles alcançaram seu primeiro ganho de 54 pontos sem modificar o LLM disponível no mercado. Esse é o poder da modularidade do RAG.
Melhor desenvolvimento de dados cria melhores sistemas LLM
O ganho de precisão de 64 pontos dos nossos engenheiros teria sido impossível sem o desenvolvimento de dados de alta qualidade orientado pelo especialista no assunto do nosso cliente.
Para treinar o modelo de marcação de datas, precisávamos de exemplos de passagens que mencionavam ou não datas. Nossos engenheiros não sabiam imediatamente que tipo de referências sutis de data esperar, mas o especialista no assunto sabia. O SME identificou um pequeno número de passagens com referências de data oblíquas ou sutis e escreveu uma breve explicação do motivo pelo qual as marcaram.
Quando se trata de casos de uso de produção, o RAG vencerá. Sua modularidade, múltiplos pontos de personalização e economia comparativa fazem dele a melhor escolha para IA empresarial.
Nossos engenheiros então codificaram as explicações do SME como funções de rotulagem na plataforma de desenvolvimento de dados Snorkel Flow AI. A plataforma rotulou rapidamente um grande número de documentos e nossos engenheiros verificaram a precisão de suas funções de etiquetagem em relação aos dados reais do SME. Isso lhes permitiu identificar deficiências e iterar até produzir um conjunto de dados de alta qualidade capaz de treinar um modelo auxiliar de alta precisão.
No final, a PME do nosso cliente gastou mais tempo verificando a precisão do modelo do que rotulando os dados.
Embora este tipo de desenvolvimento de dados seja tecnicamente possível com abordagens não programáticas, não é eficiente nem prático.
Onde a janela de contexto de milhões de tokens do Gemini 1.5 se encaixa
Embora eu não recomende que nenhuma empresa construa um sistema LLM de produção que use a janela de contexto completo do Gemini 1.5 pro, a conquista notável do Google tem um lugar no desenvolvimento de IA empresarial.
Modelos de contexto longos acelerarão casos de uso mais simples e de pré-produção. Isso é muita IA empresarial hoje! Gemini e outros permitirão que as equipes de ciência de dados concluam aplicativos de prova de conceito mais rápido do que conseguem agora. Depois de comprovarem o conceito, eles poderão prosseguir para a construção de um aplicativo baseado em RAG robusto, modular e altamente personalizado.
RAG personalizado > Contextos longos em aplicações de produção
Gemini 1.5 representa uma conquista técnica significativa. Aplaudo os pesquisadores e engenheiros do Google pelo que fizeram. Gemini e outros modelos de contexto longo ocuparão um lugar importante na IA empresarial. Permitir que as equipes de ciência de dados lidem com questões pontuais desafiadoras e concluam rascunhos de aplicativos com mais rapidez gerará valor comercial real.
Mas, quando se trata de casos de uso de produção, o RAG vencerá. Sua modularidade, múltiplos pontos de personalização e economia comparativa fazem dele a melhor escolha para IA empresarial.
A postagem RAG: ainda relevante na era dos modelos de contexto longo apareceu pela primeira vez no The New Stack.