Nos últimos 18 meses, os avanços na IA generativa criaram um apetite insaciável entre conselhos de administração e líderes empresariais. Em setembro, 87% dos executivos C-suite pesquisado pela IDC dizem que estão pelo menos explorando casos de uso em potencial. E outro 77% dos líderes empresariais temo que já estejam perdendo os benefícios do GenAI, de acordo com um relatório de novembro de 2023 relatório do Salesforce.
Mas os líderes de dados entendem que não importa quanto FOMO seus CEOs experimentem depois de assistir a uma demonstração chamativa, a implementação dos LLMs mais recentes deve ser feita de maneira ponderada. Para oferecer valor comercial significativo, esses modelos precisam ser fornecidos com dados de qualidade, mantendo ao mesmo tempo a segurança, a privacidade e a escalabilidade.
Na maioria das organizações, já existem colaboradores importantes fazendo esse trabalho: engenheiros de dados. E dado o estado atual de como as empresas alcançam IA pronta para empresasos engenheiros de dados serão cada vez mais essenciais no futuro.
O papel essencial dos engenheiros de dados na IA empresarial
Dentro de qualquer equipe de dados moderna, os engenheiros de dados são responsáveis por construir e manter a infraestrutura subjacente da pilha de dados. Seus pipelines e fluxos de trabalho permitem que aplicativos, analistas, consumidores empresariais e cientistas de dados acessem e usem os dados necessários para realizar seu trabalho.
À medida que as organizações começam a incorporar IA generativa nos seus produtos, os engenheiros de dados serão essenciais para expandir a infraestrutura e a governação existentes para abranger os modelos e tecnologias mais recentes. Vamos explorar três maneiras específicas pelas quais os engenheiros de dados contribuirão para o sucesso da IA.
1. Facilite o RAG para melhorar os resultados do LLM
Neste momento, a maioria das organizações que alcançam sucesso com GenAI estão usando geração aumentada de recuperação (RAG). Isso envolve a incorporação de uma fonte de conhecimento ou conjunto de dados em seu processo gerador – dando a um LLM acesso a um banco de dados dinâmico enquanto responde aos prompts. Por exemplo, com o RAG totalmente implementado, um chatbot voltado para o consumidor seria capaz de extrair dados específicos do cliente para referência durante uma interação de suporte.
Para a maioria dos casos de uso, RAG é mais adequado do que afinação—retreinar um LLM existente em um conjunto de dados menor e específico. O ajuste fino requer recursos computacionais consideráveis e grandes volumes de dados, e normalmente envolve um risco maior de ajuste excessivo.
A implementação eficaz do RAG requer pipelines de dados de qualidade que alimentem os dados da empresa aos modelos de IA. Os engenheiros de dados são responsáveis por garantir:
O banco de dados é preciso e relevante, com atualizações regulares e verificações de qualidade
Os processos de recuperação são otimizados e os prompts são abordados com dados corretos e contextualmente apropriados
As entradas de dados são continuamente monitoradas e refinadas através da observabilidade dos dados
A preferência pelo RAG pode mudar à medida que a tecnologia evolui, mas, por enquanto, é geralmente considerado o caminho mais prático para a IA empresarial. Também ajuda a reduzir alucinações e imprecisões, ao mesmo tempo que melhora a transparência para as equipes de dados.
2. Mantenha a segurança e a privacidade
Os engenheiros de dados já desempenham um papel fundamental na governança de dados, garantindo que os bancos de dados tenham as funções integradas e os controles de segurança adequados para garantir a privacidade e a conformidade. Quando o RAG é implementado, esses controles precisam ser ampliados e aplicados de forma consistente em todos os pipelines.
Por exemplo, o LLM de uma empresa não deveria usar dados de clientes para seu próprio treinamento, e um chatbot voltado para o cliente deve confirmar a identidade e as permissões do usuário antes de compartilhar dados confidenciais. Os engenheiros de dados desempenham um papel fundamental na manutenção da conformidade com os regulamentos e as melhores práticas.
3. Dados confiáveis e de alta qualidade
Em última análise, o sucesso do GenAI depende da qualidade dos dados. Sem dados precisos e confiáveis disponibilizados de forma consistente aos LLMs, mesmo os modelos mais avançados não produzirão resultados úteis.
Nos últimos cinco anos, os principais engenheiros de dados adotaram ferramentas de observabilidade — incluindo monitoramento e alertas automatizados, semelhantes ao software de observabilidade DevOps — para ajudar a melhorar a qualidade dos dados. A observabilidade ajuda as equipes de dados a monitorar e responder proativamente a incidentes como falhas em trabalhos do Airflow, APIs quebradas e dados de terceiros mal formatados que colocam a integridade dos dados em risco. E com a linhagem de dados ponta a ponta, as equipes ganham visibilidade das dependências upstream e downstream.
Os engenheiros de dados podem fornecer transparência quando as ferramentas de observabilidade são aplicadas em toda a pilha moderna de IA, incluindo bancos de dados vetoriais. O Lineage permite que os engenheiros rastreiem a origem dos dados à medida que são convertidos em incorporações e, em seguida, usem esses dados para gerar rich text que o LLM coloca na frente do usuário. Essa visibilidade ajuda as equipes de dados a entender como os LLMs operam, melhorar seus resultados e solucionar incidentes rapidamente.
Como Vishnu Ram, vice-presidente de engenharia da CreditKarma, nos contou: “Precisamos ser capazes de observar os dados. Precisamos entender quais dados estamos colocando no LLM, e se o LLM estiver apresentando algo próprio, precisamos saber isso – e então saber como lidar com essa situação. Se você não tem capacidade de observar o que entra no LLM e o que sai, você está ferrado.”
Engenheiros de dados são o futuro das organizações orientadas por IA
As tecnologias de IA estão evoluindo em um ritmo vertiginoso. Mas mesmo que modelos de ajuste fino e formação personalizada mais avançada se tornem viáveis para as empresas, a necessidade de garantir a qualidade, a segurança e a privacidade dos dados não mudará.
À medida que as organizações investem em aplicações generativas de IA, a qualidade e a disponibilidade dos seus dados serão mais valiosas do que nunca. Isso significa que os fluxos de trabalho e os processos de engenharia de dados podem mudar, mas a sua importância nas organizações apenas começou.
YOUTUBE.COM/THENEWSTACK
A tecnologia avança rápido, não perca um episódio. Inscreva-se em nosso canal no YouTube para transmitir todos os nossos podcasts, entrevistas, demonstrações e muito mais.
SE INSCREVER
Barr Moses é CEO e cofundador da Monte Carlo, uma empresa de confiabilidade de dados e criadora da categoria de observabilidade de dados, apoiada por Accel, GGV, Redpoint, ICONIQ Growth, Salesforce Ventures, IVP e outros importantes investidores do Vale do Silício. Anteriormente, ela era vice-presidente…
Este site utiliza cookies para melhorar sua experiência de navegação. Ao continuar, você concorda com o uso de cookies. Para mais informações, consulte nossa Política de Privacidade.
Funcional
Sempre ativo
O armazenamento ou acesso técnico é estritamente necessário para a finalidade legítima de permitir a utilização de um serviço específico explicitamente solicitado pelo assinante ou utilizador, ou com a finalidade exclusiva de efetuar a transmissão de uma comunicação através de uma rede de comunicações eletrónicas.
Preferências
O armazenamento ou acesso técnico é necessário para o propósito legítimo de armazenar preferências que não são solicitadas pelo assinante ou usuário.
Estatísticas
O armazenamento ou acesso técnico que é usado exclusivamente para fins estatísticos.O armazenamento técnico ou acesso que é usado exclusivamente para fins estatísticos anônimos. Sem uma intimação, conformidade voluntária por parte de seu provedor de serviços de Internet ou registros adicionais de terceiros, as informações armazenadas ou recuperadas apenas para esse fim geralmente não podem ser usadas para identificá-lo.
Marketing
O armazenamento ou acesso técnico é necessário para criar perfis de usuário para enviar publicidade ou para rastrear o usuário em um site ou em vários sites para fins de marketing semelhantes.