Do Apache Flink ao GenAI: 5 previsões de engenharia de dados

Uma abordagem de confiança zero para segurança multicloud

25 de janeiro de 2024

VanJS: uma estrutura de UI minimalista e ‘Vanilla JavaScript’

25 de janeiro de 2024

Publicado por Douglas S. em 25 de janeiro de 2024

Categorias

Data Science

Tags

Do Apache Flink ao GenAI: 5 previsões de engenharia de dados

É sempre um desafio prever o futuro, mas há pelo menos uma certeza para os engenheiros de dados em 2024: o seu trabalho continuará a ser altamente valorizado.

O rápido crescimento da IA generativa e a mudança contínua do processamento em lote para o processamento em fluxo estão entre as tendências que manterão os engenheiros de dados ocupados no próximo ano.

Aqui estão cinco previsões sobre como o cenário da engenharia de dados irá progredir no próximo ano.

1. GenAI se tornará comoditizada e incorporada em vários aplicativos

Parece impensável que uma tecnologia tão poderosa como a GenAI seja comoditizada já no próximo ano, mas em 2024 isso começará a acontecer. LLMs e outros modelos fundamentais já estão se tornando mais fáceis de treinar e ajustar. No próximo ano, as empresas começarão a incorporar GenAI em mais aplicações.

Há um ano, apenas alguns LLMs estavam disponíveis e eram extremamente grandes e caros para treinar e operar. Existem agora muitos LLMs para escolher, incluindo alguns que são menores e treinados para aplicações específicas, como desenvolvimento de software, bem como opções de código aberto que podem ser facilmente adaptadas.

Para serem úteis para as empresas, os aplicativos baseados em LLM devem ser bem contextualizados com dados internos relevantes e precisos. A disponibilidade de LLMs específicos torna mais fácil para as empresas treinar LLMs em seus dados internos e executá-los em seus próprios ambientes de nuvem seguros, o que muitas vezes é fundamental para atender às necessidades de segurança.

2. A governança de dados ‘mudará para a esquerda’ à medida que as empresas coletarem mais dados para GenAI

À medida que as empresas recolhem maiores volumes de dados para as suas iniciativas de IA, devem adicionar uma camada de governação para tornar os dados úteis. É muito mais fácil e eficiente adicionar governação quando os dados são produzidos, e veremos a governação de dados “deslocar-se para a esquerda” no próximo ano para acomodar esta necessidade.

Os investimentos em governação são fundamentais, pois garantem que os dados são fiáveis e podem ser disponibilizados rapidamente para utilização em aplicações. Esta governação inclui registar a proveniência dos dados, garantir que são precisos, adicionar metadados para facilitar o trabalho e incluí-los num catálogo seguro para que outros saibam que estão disponíveis.

Armazenar dados não estruturados e não controlados em um data lake torna mais fácil salvar tudo, mas fica cada vez mais caro usar qualquer um desses dados. As empresas devem trabalhar de forma mais inteligente e deslocar o processamento para a esquerda tanto quanto possível.

Isto tem vários benefícios. Adicionar governança mais cedo significa que os dados estarão disponíveis mais rapidamente, para que os desenvolvedores possam trabalhar com dados mais oportunos. Também permite que uma organização descarte dados sem valor futuro, reduzindo custos e responsabilidades de armazenamento. Em 2024, mais empresas reconhecerão estes benefícios e aplicarão a governação de dados mais cedo.

3. A adoção do Apache Flink irá acelerar além dos engenheiros de software, consolidando sua posição como o de fato padrão para processamento de fluxo

Historicamente, a adoção do processamento de fluxo tem sido retardada devido à sua complexidade. O processamento de fluxo deve se tornar mais simples para as pessoas usarem e obterem o máximo de benefícios dele.

O ecossistema de usuários do Flink continuará a se diversificar além dos desenvolvedores de software, à medida que as equipes de dados e as operações de negócios reconhecem o valor de mover cargas de trabalho upstream. Vimos mais usuários querendo consultar seus streams em tempo real. Com a introdução de um novo driver Java Database Connectivity (JDBC), veremos ainda mais novos sistemas e usuários se conectando ao Flink pela primeira vez.

4. O Apache Flink 2.0 adotará os princípios nativos da nuvem e eliminará as fronteiras entre o processamento em lote e em fluxo

O Flink 2.0, previsto para o final de 2024, é um grande foco para a comunidade Flink. No próximo ano, o Flink continuará se modernizando e se tornando mais leve, adotando princípios nativos da nuvem, como camadas de persistência desagregadas. Também podemos esperar que os limites entre o processamento em lote e em fluxo desapareçam à medida que os sistemas escolherão automaticamente o melhor modo.

Além disso, a integração e a sinergia entre Flink e Apache Kafka continuarão a fortalecer-se. As melhorias nas transações distribuídas permitirão mais casos de uso de missão crítica.

Com o serverless como nova referência para serviços de processamento de stream, os desenvolvedores poderão se concentrar e gastar mais tempo construindo aplicativos de processamento de stream em tempo real, em vez de gerenciar o Flink.

5. Os dados como produto serão generalizados à medida que as ferramentas de governação evoluem

Até recentemente, apenas as grandes empresas tinham experiência e recursos para criar ativos de dados reutilizáveis que pudessem ser facilmente reaproveitados em diferentes equipes e aplicações. Graças aos avanços nos produtos de governação necessários para construir estes ativos, em 2024, mais empresas serão capazes de criar produtos de dados reutilizáveis, acelerando enormemente a eficiência e a inovação de dados.

Várias equipes podem se beneficiar do acesso aos mesmos dados para construir um serviço ou aplicativo. Porém, esses dados devem ser apresentados de forma segura, bem contextualizada e compreensível para usuários que não estiveram envolvidos na sua produção. À medida que os dados se afastam da sua fonte inicial, fica mais difícil determinar e fornecer esta informação contextual, o que os torna cada vez mais caros. Iniciar o processo de governança de dados na origem não é apenas menos dispendioso, mas também uma maneira melhor de compreender a origem dos dados e como eles são esquematizados.

Novos recursos de governança de dados pré-integrados em produtos como data warehouses em nuvem, bancos de dados e outros serviços de infraestrutura de dados podem ajudar a atender a essas necessidades. Isso significa que os desenvolvedores não precisam mais construir manualmente a infraestrutura para criar e compartilhar produtos de dados reutilizáveis.

Como resultado, os produtos de dados reutilizáveis não estarão mais restritos a empresas com grandes equipes de engenharia de dados. Com mais empresas construindo produtos de dados reutilizáveis, em 2024, os desenvolvedores aumentarão o valor dos seus dados e gastarão mais tempo construindo aplicações e serviços de dados inovadores.

Desbloqueando maior valor de dados em 2024

Os dados são o principal impulsionador da inovação nos negócios hoje, e essas previsões devem ser um bom indicador de onde muitos engenheiros de dados concentrarão suas energias em 2024. GenAI é o mais novo garoto do setor, mas o streaming de dados e o processamento a vapor permanecem igualmente críticos, pois as empresas tentam extrair ainda mais valor de seus dados. Neste cenário em rápida mudança, os engenheiros de dados serão os principais arquitetos da mudança, e a sua experiência e criatividade moldarão as infraestruturas de dados de amanhã.

Andrew Sellers lidera o Grupo de Estratégia de Tecnologia da Confluent, apoiando o desenvolvimento de estratégia, análise competitiva e liderança inovadora. Anteriormente, ele trouxe ao mercado diversas ofertas comerciais habilitadas para IA como líder em tecnologia. Ele é co-inventor de mais de uma dúzia de patentes relacionadas a…